2016 年 早 些 时 候 ， 我 曾经 写 过 一 篇 有 关联 通 Hadoop 的 文章 ， 在 其 中 的 “展望 篇 ”里 谈 到 过 OLAP on Hadoop 的 新 技术 
Apache Kylin。 今 天 《Apache Kylin 权 威 指南 》 一 书 即 将 出 版 ， 我 也 有 幸 受 本 书 作者 之 一 韩 邑 (Luke) 的 邀请 来 写 推荐 序 。 


联通 集团 的 BI 是 2010 年 建设 的 ， 由 于 全 国有 4 亿 用 户 的 明细 数据 需要 集中 处 理 ， 再 加 上 对 移动 互联 网 用 户 流量 日 志 的 采集 ， 

使 得 数据 量 急 增 。 截 至 2013 年 已 达 PB 级 规模 ， 并 仍 以 指数 级 速度 增长 ， 传 统 数据 仓库 不 堪 重 负 ， 数 据 的 存储 和 批量 处 理 成 了 瓶 
颈 。 另 一 方面 BI 上 提供 的 面向 用 户 的 数据 查询 和 多 维 分 析 服 务 ， 使 得 后 台 生 产 的 Cube 越 来 越 多 ， 几 年 下 来 已 有 七 八 干 个 。 用 户 
需求 对 某 一 维度 的 改变 往往 会 造成 一 个 新 Cube 的 产生 ， 耗 费 资 源 不 说 ， 也 为 管理 带 来 了 极 大 的 不 便 。2013 年 年 底 我 们 在 传统 数 
据 仓 库 之 外 搭建 了 第 一 个 Hadoop 平 台 ， 节 点 数 也 从 最 初 的 几 十 个 发 展 到 了 今天 的 3500 个 ， 大 大 提高 了 系统 的 存储 及 计算 能 

力 ， 为 联通 大 数据 对 内 对 外 的 发 展 都 起 到 了 至 关 重 要 的 作用 。 美 中 不 足 的 是 分 布 式 存 储 和 并 行 计算 只 解决 了 系统 的 性 能 问题 ， 尽 
管 我 们 也 部 署 了 像 Hive、Impala 这 样 的 SQL on Hadoop 技 术 ， 但 在 Hadoop 体 系 上 的 多 维 联机 分 析 (OLAP) 却 始终 得 不 到 满 
意 的 结果 。Oracle+ Hadoop 的 混搭 架构 还 因为 有 对 OLAP 的 需求 而 继续 维持 着 ， 零 散 的 Cube 数 还 在 继续 增长 ， 架 构 师 们 还 在 继 
续 寻 找 奇 迹 方案 的 出 现 。 


Apache Kylin 就 是 在 这 种 大 背景 下 出 现在 我 们 的 视野 中 的 。 一 个 好 的 产品 首先 要 有 一 个 清晰 的 定位 ， 要 有 一 套 能 够 明确 解 
决 行业 痛 点 的 方案 。Kylin 在 这 点 上 做 得 非常 好 ， 它 把 自己 定义 为 Hadoop 大 数据 平台 上 的 一 个 开源 OLAP 引 警 。 三 个 关键 词 : 
Hadoop、 开 源 、OLAP， 使 它 的 定位 一 目 了 然 ， 不 用 过 多 地 解释 。 同 时 ，Kylin 也 是 透明 的 ， 不 像 许 多 产品 把 自己 使 用 的 技术 搞 
得 很 神秘 ，Kylin 沿 用 了 原来 数据 仓库 技术 中 的 Cube 概 念 ， 把 无 限 数据 按 有 限 的 维度 进行 “ 预 处 理 ”， 然 后 将 结果 (Cube) 加 
载 到 HBase 里 ， 供 用 户 查 询 使 用 ， 使 得 现 有 的 分 析 师 和 业务 人 员 能 够 快速 理解 和 掌握 。 相 比 于 IOE 时 代 的 BI， 它 非常 巧妙 地 使 用 
了 Hadoop 的 分 布 式 存储 与 并 行 计算 能 力 ， 用 横向 可 扩展 的 硬件 资源 来 换取 计算 性 能 的 极 大 提高 。 


为 了 能 够 将 Kylin 真 正 融入 到 联通 的 大 数据 架构 中 ， 我 们 正在 紧锣密鼓 地 组 织 系统 测试 。 比 如 对 单 用 户 级 的 数据 查询 、 第 三 
方 可 视 化 工具 的 集成 、 多 维 Cube 建 立 的 维度 数 极限 等 的 测试 。 我 们 还 计划 用 Kafka 来 导入 数据 ， 用 Spark 来 加 工 Cube， 用 其 他 
产品 来 代替 HBase 进 而 提高 数据 读 取 性 能 ， 用 Kylin 的 路 由 选择 来 桥接 新 老 Cube， 等 等 。 这 时 出 版 的 《Apache Kylin 权 威 指南 》 
一 书 ， 对 于 我 们 来 说 无 疑 是 雪 中 之 炭 ， 我 们 的 许多 疑惑 都 会 在 这 本 指南 当中 找到 权威 解答 。 

联通 公司 现在 经 历 的 这 些 过 程 很 多 企业 都 会 遇 到 ，“ 坑 ”我 们 愿意 去 填 ， 路 希望 大 家 来 走 。 在 向 读者 推荐 《Apache Kylin 
权威 指南 》 一 书 的 同时 ， 我 们 真诚 期 望 Kylin (作为 Apache 开 源 社 区 第 一 个 由 中 国人 开发 并 主导 的 产品 ) 能 够 成 功 ， 能 够 在 不 断 
的 实践 中 提高 自己 ， 能 够 充分 利用 中 国 这 个 占 世 界 数据 量 20% 的 大 市 场 ， 把 自己 打造 成 大 数据 领域 的 一 只 独 角 兽 。 

国家 千 人 计划 专家 


中 国联 通 集团 信息 化 部 CTO 


我 是 一 个 开源 软件 的 爱好 者 ， 算 是 开源 届 的 一 名 老兵 。 从 1995 年 到 美国 留学 起 ， 就 开始 接触 开源 软件 ， 当 时 的 GNU、 
Linux、FreeBSD 和 Emacs 等 自由 软件 让 刚 出 国门 的 我 感到 惊艳 万 分 。 从 那 时 开始 ， 我 就 再 没有 和 自由 软件 、 开 源 软件 分 开 过 : 
从 读 博 士 期 间 一 直人 参与 研发 自由 软件 XSB、 因 个 人 爱好 参与 贡献 GNU Emacs、 在 1BM 工 作 期 间 基 于 一 系列 开源 软件 为 团队 开发 
DocBook 文 档 写作 工具 链 ， 到 后 来 在 Linkedln 工 作 期 间 研究 作为 5 个 核心 成 员 开 源 的 分 布 式 实时 搜索 系统 SenseiDB， 再 到 近 几 
年 在 小 米 大 力 推动 开源 战略 ， 打 造 基 于 开源 软件 的 小 米 云 计算 、 大 数据 和 机 器 学 习 技 术 及 团队 。20 多 年 来 ， 对 开源 软件 的 热 
爱 ， 让 我 逐渐 从 一 名 早期 的 自由 软件 爱好 者 、 信 和 仰 者 、 贡 献 者 和 管理 者 ， 变 成 了 一 名 坚定 的 开源 软件 倡导 者 。 在 这 期 间 ， 我 见证 
了 开源 技术 的 萌芽 、 兴 起 和 今天 的 繁荣 ， 也 经 历 了 国内 外 不 同文 化 下 的 开源 发 展 历程 。 


作为 一 名 参与 开源 软件 较 早 的 中 国人 ， 我 也 深 深 地 感受 到 了 最 初 西方 世界 对 中 国人 使 用 开源 技术 、 参 与 开源 软件 开发 的 质疑 
和 冷落 。 因 为 互联 网 和 自由 软件 进入 我 国 较 晚 ， 也 因为 中 国人 在 英语 上 的 不 足 和 东西 方 文化 的 差异 ， 还 因为 早期 国内 的 一 些 开源 
爱好 者 对 开源 软件 的 理解 不 足 ， 使 得 在 开源 方面 较为 领先 的 西方 开源 人 士 对 国人 在 开源 上 的 使 用 和 贡献 存在 极 大 偏见 。 中 国 开源 
力量 融入 国际 开源 社区 的 过 程 是 缓慢 和 艰苦 的 ， 幸 运 的 是 ， 近 四 五 年 来 ， 随 着 GitHub 的 兴起 和 多 个 开源 社区 的 迅猛 发 展 ， 中 国 
每 年 产生 的 计算 机 人 才 也 多 了 起 来 ， 中 国 越 来 越 多 的 互联 网 公司 开始 正确 地 拥抱 开源 ， 中 国 工程 师 在 国际 开源 社区 的 贡献 和 影响 
力也 越 来 越 大 (比如 ， 作 为 一 个 很 年 轻 的 创业 公司 ， 小 米 就 在 不 到 一 年 半 的 时 间 里 推出 了 3 个 HBase committer) ， 这 确实 不 是 
一 件 容 易 的 事 。 但 是 ， 今 天 不 管 是 在 云 计算 、 大 数据 ， 还 是 容器 等 诸多 开源 技术 领域 ， 真 正 由 中 国人 自己 主导 、 从 零 开 始 、 自 主 
研发 、 最 后 贡献 到 国际 开源 社区 并 成 为 顶级 开源 项 目的 ， 应 该 就 只 有 Apache Kylin 一 个 。Apache Kylin 是 2013 年 由 eBay 在 上 海 
的 一 个 中 国 工程 师 团队 发 起 的 、 基 于 Hadoop 大 数据 平台 的 开源 OLAP 引 擎 ， 它 利用 空间 换 时 间 的 方法 ， 把 很 多 分 钟 级 别 乃 至 小 
时 级 别 的 大 数据 查询 速度 一 下 子 提升 到 了 亚 秒 级 别 ， 极 大 地 提高 了 数据 分 析 的 效率 ， 填 补 了 业界 在 这 方面 的 空白 。 


我 非常 高 兴 能 够 看 到 一 个 来 自 国内 的 团队 开源 一 个 项 目 ， 并 在 短 短 不 到 一 年 的 时 间 里 顺利 使 其 毕业 ， 也 使 其 成 为 Apache 软 
件 基 金 会 的 顶级 项 目 ， 取 得 了 可 以 和 Hadoop、Spark 等 重大 开源 软件 相提并论 的 成 就 。 一 支 来 自 国内 的 工程 师 团 队 能 够 快速 融 
入 国际 开源 社区 ， 被 全 球 最 大 的 开源 软件 基金 会 接纳 并 成 功 占领 一 席 之 地 ， 这 是 一 件 非常 不 容易 的 事情 ， 足 以 让 国人 欣慰 和 矣 
傲 。 这 一 切 都 和 Apache Kylin 项 目 背 后 的 负责 人 韩 儿 (Luke) 密 不 可 分 。 我 是 在 QCon 北 京 2014 全 球 软件 开发 大 会 上 认识 韩 狠 
的 ， 并 由 此 第 一 次 知道 了 Kylin 这 个 项 目 ， 和 韩 卿 开始 交谈 不 久 ， 我 就 觉得 他 是 当时 国内 为 数 不 多 的 、 真 正 懂得 开源 软件 打 法 的 
一 个 人 。 那 次 的 交谈 非常 愉快 ， 从 此 我 也 开始 关注 这 个 项 目 并 极度 看 好 它 。 


开源 项 目 ， 并 不 是 将 代码 公开 就 完事 了 ， 团 队 需要 做 更 多 艰苦 的 工作 来 不 断 推广 技术 、 经 营 社区 和 营销 品牌 ， 使 得 项 目 能 
被 广泛 接纳 和 使 用 。 韩 媳 及 Kylin 团 队 在 这 方面 做 得 非常 出 色 ， 在 各 种 国内 外 的 技术 大 会 上 、 很 多 开源 社区 里 都 可 以 看 到 他 们 忙 
碌 的 身影 。 在 短 短 的 两 年 时 间 里 ， 我 就 看 到 Kylin 项 目 从 Apache 氏 化 器 项 目 毕 业 成 为 顶级 项 目 ， 也 看 到 这 个 团队 离开 eBay 并 创 
立 了 Kyligence 这 家 创业 公司 。 今 天 ， 很 多 成 功 的 重大 开源 项 目 背 后 都 有 一 两 个 伟大 的 创业 公司 : Hadoop 背 后 是 Cloudera 和 
Hortonworks、Spark 后 面 是 Databricks， 等 等 。 我 也 看 好 Apache Kylin 后 面 的 Kyligence! 


小 米 不 仅仅 是 一 家 手机 公司 ， 更 是 一 个 大 数据 公司 ， 公 司 内 部 的 很 多 产品 和 业务 都 深度 依赖 大 数据 分 析 ， 我 们 所 面 对 的 数据 
量 、 挑 战 和 困难 都 是 空前 的 。Apache Kylin 独 特 的 数据 查询 性 能 优势 在 小 米 中 有 很 多 应 用 场景 ， 我 希望 将 来 我 们 能 够 更 多 地 用 
到 Apache Kylin 技 术 ， 也 希望 和 Kyligence 能 有 深度 的 技术 合作 。 


今年 ， 深 度 学 习 和 大 数据 引发 了 人 工 智 能 的 热潮 ， 人 工 智 能 的 热潮 肥 过 来 也 会 推动 大 数据 领域 相关 技术 的 发 展 和 演进 ， 大 数 
据 领 域 必 将 诞生 更 多 的 新 技术 和 新 产品 。 相 信和 在 不 久 的 未来 ， 会 有 更 多 的 、 类 似 于 Apache Kylin 的 、 由 中 国人 主导 的 项 目 从 实 
际 需求 中 产生 、 开 源 并 被 贡献 到 国际 开源 社区 ， 向 世界 输出 我 们 的 技术 实力 。 在 将 本 书 推荐 给 读者 的 同时 ， 我 也 希望 更 多 的 读 
者 、 团 队 和 公司 能 一 起 参与 、 贡 献 和 拥抱 开源 ， 努 力 提 高 我 国 技术 人 员 在 国际 开源 社区 的 影响 力 。Apache Kylin 项 目 相关 的 经 
验 也 非常 值得 其 他 技术 人 员 学 习 和 借鉴 ! 


E xA 


小 米 首席 架构 师 


小 米 云 平台 负责 人 


推荐 序 三 


在 大 数据 处 理 技术 领域 ， 用 户 最 普遍 的 诉求 就 是 希望 以 很 简易 的 方式 从 大 数据 平台 上 快速 获取 查询 结果 ， 同 时 也 希望 传统 的 
商务 智能 工具 能 够 直接 和 大 数据 平台 连接 起 来 ， 以 便 使 用 这 些 工具 做 数据 分 析 。 目 前 已 经 出 现 了 很 多 优秀 的 SQL on Hadoop 引 
擎 ， 包 括 Hive、Impala 及 SparkSQL 等 ， 这 些 技术 的 出 现 和 应 用 极 大 地 降低 了 用 户 使 用 Hadoop 平 台 的 难度 。 为 了 进一步 满 
足 “ 在 高 并 发 、 大 数据 量 的 情况 下 ， 使 用 标准 SQL 查询 聚合 结果 集 能 够 达到 毫秒 级 ”这 一 应 用 场景 ，Apache Kylin 应 运 而 生 ， 在 
eBay 孵化 并 最 终 贡献 给 开源 社区 。Apache Kylin 是 一 种 分 布 式 分 析 引 警 ， 提 供 Hadoop 之 上 的 标准 SQL 查询 接口 及 多 维 分 析 

(OLAP) 功能 。 


Apache Kylin 通 过 空间 换 时 间 的 方式 ， 实 现在 亚 秒 级 别 延 迟 的 情况 下 ， 对 Hadoop 上 的 大 规模 数据 集 进行 交互 式 查询 ; 
Kylin 通 过 预计 算 ， 把 计算 结果 集 保存 在 HBase 中 ， 原 有 的 基于 行 的 关系 模型 被 转换 成 基于 键 值 对 的 列 式 存储 ; 通过 维度 组 合作 
为 HBase 的 Rowkey， 在 查询 访问 时 不 再 需要 昂贵 的 表 扫 描 ， 这 为 高 速 高 并 发 分 析 带 来 了 可 能 ; Kylin 提 供 了 标准 SQL 查询 接口 ， 
支持 大 多 数 的 SQL 函数 ， 同 时 也 支持 ODBC/JDBC 的 方式 和 主流 的 Bl 产品 无 颖 集成 。 


ER}, Apache Kylin 是 目前 国内 少 有 的 几 个 通过 了 Cloudera 公 司 产品 工程 认证 的 大 数据 分 析 和 查询 引擎。 Cloudera 公 司 相 
信 ， 作 为 唯一 一 个 来 自 中 国 的 Apache 顶 级 开源 项 目 ，Apache Kylin 不 仅仅 代表 了 中 国 对 国际 开源 社区 的 参与 ， 同 时 也 将 为 我 国 
及 全 球 企业 用 户 探索 大 数据 的 价值 的 进程 做 出 卓越 的 贡献 。 


在 过 去 的 一 年 中 ， 我 们 有 机 会 与 Kyligence 公 司 合作 ， 共 同 为 国内 的 企业 客户 提供 基于 Cloudera Hadoop 平 台 上 的 大 数据 应 
用 。 本 书 的 出 版 为 开发 人 员 和 数据 分 析 人 员 利 用 这 一 技术 提供 了 极 大 的 便利 。 更 重要 的 是 ， 这 本 书 不 仅 能 够 指导 开发 人 员 安 装 和 
使 用 Apache Kylin， 而 且 还 深入 探讨 了 Apache Kylin 的 核心 技术 架构 ， 并 且 通 过 丰富 的 案例 展示 了 如 何 通 过 优化 来 提升 大 数据 
的 应 用 性 能 。 本 书 的 作者 之 一 韩 先 生 是 Apache Kylin 的 主要 创建 者 和 项 目 委 员 会 主席 (PMC chair) ,对 于 Kylin 的 技术 架 
构 、 应 用 及 未 来 发 展 都 有 深刻 的 理解 。 我 相信 本 书 对 于 Kylin 使 用 者 和 开发 者 来 说 ， 是 及 时 的 且 不 可 或 缺 的 。 


Hp 


Cloudera 全 球 副 总 裁 兼 大 中 华 区 总 经 理 


大 数据 在 近 几 年 已 经 成 为 一 个 火爆 的 名 词 ， 而 企业 针对 数据 的 分 析 也 从 未 停止 过 。 从 早 些 年 传统 企业 的 数据 仓库 、Bl， 到 近 
些 年 互联 网 公司 的 广告 推荐 、 产 品 分 析 ， 青 到 现在 基于 loT 硬 件 的 线 下 用 户 行为 画像 ， 无 论 是 互联 网 企业 还 是 传统 企业 ， 一 直 都 
在 尝试 通过 数据 帮助 企业 或 企业 的 用 户 提 升 工 作 效 率 和 体验 。 从 过 去 的 决策 支持 ， 到 现在 普及 的 精准 推荐 ， 乃 至 未 来 的 基于 实时 


分 析 的 Al 交互 ， 大 数据 及 相关 技术 将 一 直 是 这 些 业 务 发 展 的 基石 ， 因 而 在 最 近 的 10 年 ， 大 数据 技术 有 了 日 新 月 异 的 发 展 。 


从 海量 数据 的 批量 计算 到 实时 分 析 ， 从 精准 推荐 到 OLAP 查 询 ， 业 界 涌现 了 大 量 优秀 的 开源 项 目 。Apache Kylin 就 是 其 中 一 
颗 由 国人 研发 的 璀璨 的 明星 ， 是 国内 第 一 个 Apache 顶 级 开源 项 目 (与 Kafka、Spark 齐 名 ) ， 它 解决 了 海量 数据 下 OLAP 查 询 的 
关键 技术 。 大 数据 本 身 并 不 能 产生 价值 ， 针 对 数据 的 分 析 和 运用 才 可 以 产生 价值 ， 而 OLAP 是 企业 对 数据 做 深度 分 析 必 用 的 组 
件 。 在 过 去 ， 它 能 帮助 企业 从 不 同 维度 汇总 、 下 钻 看 到 企业 不 同 部 门 、 地 区 的 差异 及 发 展 趋势 ;现在 ， 它 能 帮助 企业 针对 不 同 用 
户 画 像 的 人 群 做 相关 行为 分 析 、 排 行 ， 也 可 以 针对 不 同 的 点 击 事件 深入 分 析 不 同 渠 道 的 转化 率 、 客 单价 。OLAP 技 术 曾 经 在 百 亿 
数据 集 、PB 级 别 规模 的 时 候 ， 遇 到 了 很 大 的 瓶 须 ， 无 论 是 并 行 计算 还 是 近似 计算 ， 都 对 |/O、CPU 和 查询 时 长 带 来 了 挑战 。 
Kylin 运 用 它 独 有 的 技术 ， 在 数据 存储 不 产生 指数 级 增长 的 情况 下 ， 采 用 预计 算 技术 以 空间 换 回 了 时 间 ， 在 百 亿 甚至 万 亿 级 别 数 
据 集 上 实现 了 毫秒 级 的 查询 响应 速度 。 同 时 也 利用 了 模糊 计算 等 技术 在 允许 一 定 误差 的 情况 下 ， 对 10 亿 级 别 用 户 、 几 干 种 用 户 
行为 标签 的 数据 实现 了 用 户 行为 的 即时 查询 ， 帮 助 企业 极 大 地 降低 了 大 数据 OLAP 实 施 的 门槛 ， 也 降低 了 大 数据 平台 实施 的 
TCO， 是 企业 建设 大 数据 平台 的 优质 DLAP 引 警 。 本 书 可 以 帮助 企业 的 技术 管理 者 、 开 发 者 详细 了 解 Kylin 并 将 应 用 部 署 到 自己 的 
企业 当中 ， 规 避 其 中 的 实施 风险 、 提 高 部 署 与 处 理 效率 。 


数据 是 一 种 新 的 能 源 ， 它 与 石油 、 电 力 不 同 ， 产 生 于 企业 和 用 户 的 行为 ， 能 通过 不 断 地 深入 使 用 和 反复 分 析 利 用 来 帮助 企业 
增收 、 节 支 、 提 效 、 避 险 ， 其 中 各 个 环节 都 要 有 适用 的 工具 ，Apache Kylin 就 是 其 中 之 一 。 大 数据 从 过 去 的 批量 数据 处 理发 展 
到 现在 的 实时 数据 分 析 ， 我 非常 高 兴 地 看 到 Kylin 也 支持 了 相关 特性 ， 让 数据 不 止 是 用 于 实时 计算 ， 还 可 以 帮助 管理 者 看 到 实时 
的 联机 分 析 处 理 结果 。 当 然 ， 数 据 的 实时 OLAP 只 是 实时 分 析 中 的 一 种 ， 要 结合 数据 实时 采集 、 数 据 实时 计算 、 数 据 流 挖掘 、 实 
时 场景 引擎 等 技术 ， 才 可 以 让 企业 从 T+ 1 的 分 析 发 展 到 实时 数据 分 析 ， 进 而 实现 实时 决策 与 反馈 ， 最 终 实 现 企业 自身 的 智能 分 析 
与 交互 。 数 据 的 实时 分 析 是 每 个 企业 实现 AI 的 必 经 之 路 ， 而 数据 实时 分 析 的 应 用 又 离 不 开 Kylin 这 样 的 OLAP 引 苟 。 


最 后 ， 很 荣幸 可 以 为 本 书写 推荐 序 ， 本 书 作者 之 一 韩 嗓 (Luke) 也 是 我 多 年 的 好 友 ， 从 他 在 eBay 之 时 我 们 就 有 很 多 交流 ， 
我 也 有 幸 看 着 Apache Kylin 项 目 逐 步 成 为 国际 著名 的 开源 项 目 。 大 数据 的 发 展 不 是 一 个 项 目 或 一 个 企业 就 可 以 独立 推动 的 ， 也 
希望 更 多 的 人 才 和 企业 加 入 大 数据 分 析 的 行业 中 来 ， 使 得 我 国 能 够 涌现 出 更 多 像 Apache Kylin 一 样 的 优秀 项 目 ， 让 数据 成 为 每 
一 个 企业 的 再 生 能 源 ! 
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“于 我 而 言 ， 与 Apache Kylin 团 队 一 起 合作 使 Kylin 通 过 孵化 成 为 顶级 项 目 是 非常 激动 人 心 的 ， 诚 然 ，Kylin 在 技术 方面 非常 振 
奋 人 心 ， 但 同样 令 人 兴奋 的 是 Kylin 代 表 了 亚洲 国家 ， 特 别 是 中 国 ， 在 开源 社区 中 越 来 越 高 的 参与 度 。 


Ted Dunning Apache 孵化 项 目 副 总 裁 ，MapR 首 席 应 用 架构 师 


今天 ， 随 着 移动 互联 网 、 物 联网 、Al 等 技术 的 快速 兴起 ， 数 据 成 为 了 所 有 这 些 技术 背后 最 重要 ， 也 是 最 有 价值 的 “资产 ”。 


如 何 从 数据 中 获得 有 价值 的 信息 ”这 个 问题 驱动 了 相关 技术 的 发 展 ， 从 最 初 的 基于 文件 的 检索 、 分 析 程 序 ， 到 数据 仓库 理念 的 诞 
生 ， 再 到 基于 数据 库 的 商业 智能 分 析 。 而 现在 ， 这 一 问题 已 经 变 成 了 如 何 从 海量 的 超大 规模 数据 中 快速 获取 有 价值 的 信息 ， 新 的 
时 代 、 新 的 挑战 、 新 的 技术 必然 应 运 而 生 。 


在 数据 分 析 领 域 ， 大 部 分 的 技术 都 诞生 在 国外 ， 特 别 是 美国 ， 从 最 初 的 数据 库 ， 到 以 Hadoop 为 首 的 大 数据 技术 ， 再 到 今天 
各 种 DL (Deep Learning) 、Al， 等 等 。 但 我 国 拥有 着 世界 上 独一无二 的 “大 ”数据 ， 最 多 的 人 口 、 最 多 的 移动 设备 、 最 活跃 
的 应 用 市 场 、 最 复杂 的 网 络 环境 等 ， 应 对 这 些 挑战 ， 我 们 需要 有 自己 的 核心 技术 ， 特 别 是 在 基础 领域 的 突破 和 研发 方面 。 今 天 ， 
以 Apache Kylin 为 首 的 各 种 来 自 中 国 的 先进 技术 不 断 涌现 ， 甚 至 在 很 多 方面 都 大 大 超越 了 国外 的 其 他 技术 ， 这 一 点 也 彰显 了 中 
国 的 技术 实力 。 


自 Hadoop 选 取 大 象 伊 始 ， 上 百 个 项 目 ， 以 动物 居 之 者 为 多 ， 而 其 中 唯 有 Apache Kylin (MB) 来 自 中 国 ， 在 众多 项 目 中 分 
外 突出 。 在 全 球 最 大 的 开源 基金 会 一 -Apache 软件 基金 会 (Apache Software Foundation, ASF) 的 160 多 个 顶级 项 目 
中 ，Apache Kylin 是 唯一 一 个 来 自 中 国 的 顶级 开源 项 目 ， 与 Apache Hadoop、Apache Spark、Apache Kafka、Apache 
Tomcat、Apache Struts、Apache Maven 等 顶级 项 目 一 起 以 The Apache Way 构建 了 开源 大 数据 领域 的 国际 社区 ， 并 拓展 了 


大 数据 与 传统 技术 最 大 的 区 别 就 在 于 数据 的 体 量 对 查询 带 来 的 巨大 挑战 。 从 最 早 使 用 大 数据 技术 来 做 批量 处 理 ， 到 现在 越 来 
越 多 地 需要 大 数据 平台 也 能 够 如 传统 数据 仓库 技术 一 样 支 持 交 互 式 分 析 。 随 着 数据 量 的 不 断 膨 胀 ， 数 据 平 民 化 的 不 断 推进 ， 低 延 
迟 、 高 并 发 地 在 Hadoop 之 上 提供 标准 SQL 查询 的 能 力 成 为 必须 要 攻破 的 技术 难题 。 而 Apache Kylin 的 诞生 正 是 基于 这 个 背景 ， 
并 成 功 地 完成 了 很 多 人 认为 不 可 能 实现 的 突破 。Apache Kylin 最 初 诞生 于 eBay 中 国 研 发 中 心 (坐落 于 上 海 浦东 新 区 的 德国 中 
心 ) ， 在 2013 年 9 月 底 ，eBay 中 国 研发 中 心 的 技术 人 员 开 始 对 此 进行 POC 并 组 建 团 队 ， 经 过 一 年 的 艰苦 开发 和 测试 ， 于 2014 年 9 
月 30 日 使 其 正式 上 线 ， 并 在 第 二 天 (2014 年 10 月 1 日 ) 正式 开源 。 


在 这 个 过 程 中 ， 使 用 何 种 技术 ， 如 何 进行 架构 ， 如 何 突破 那些 看 似 无 法 完成 的 挑战 ， 整 个 开发 团队 和 用 户 一 起 经 历 了 一 段 艰 
难 的 历程 。 今 天 呈现 出 的 Apache Kylin 已 经 经 历 了 上 干 亿 乃 至 上 万 亿 规 模 数 据 量 的 分 析 请 求 ， 以 及 上 百 家 公 司 的 实际 生产 环境 
的 检验 ， 成 为 各 个 公司 大 数据 分 析 平 台 不 可 蔡 代 的 重要 部 分 。 本 书 将 从 Apache Kylin 的 架构 和 设计 、 各 个 模块 的 使 用 、 与 第 三 
方 的 整合 、 二 次 开发 及 开源 实践 等 方面 进行 讲解 ， 为 各 位 读者 呈现 最 核心 的 设计 理念 和 哲学 、 算 法 和 技术 等 。 


Apache Kylin 社 区 的 发 展 不 易 ， 自 2014 年 10 月 开源 到 今天 已 有 两 年 ， 从 最 初 的 几 个 人 发 展 到 今天 的 几 十 个 贡献 者 ， 国 内 外 
上 百 家 公 司 在 正式 使 用 ， 连 续 两 年 获得 InfoWorld Bossie Awards 最 佳 开源 大 数据 工具 奖 。 来 自 核心 团队 、 贡 献 者 、 用 户 、 导 
师 、 基 金 会 等 的 帮助 和 无 私 的 奉献 铸就 了 这 个 活跃 的 社区 ， 也 使 得 Apache Kylin 得 以 在 越 来 越 多 的 场景 下 发 挥 作用 。 现 在 ， 由 
Apache Kylin 核 心 团队 撰写 了 本 书 ， 相 信 能 更 好 地 将 相关 的 理论 、 设 计 、 技 术 、 架 构 等 展现 给 各 位 朋友 ， 希 望 能 够 让 更 多 的 朋 
友 更 加 充分 地 理解 Kylin 的 优点 和 使 用 的 场景 ， 更 多 地 挖掘 出 Kylin 的 潜力 。 同 时 也 希望 本 书 能 够 鼓励 并 吸引 更 多 的 人 参与 Kylin 项 
目 和 开源 项 目 ， 影 响 更 多 人 贡献 更 多 的 项 目 和 技术 到 开源 世界 来 。 
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第 1 章 Apache Kylin 概 述 


Apache Kylin 是 Hadoop 大 数据 平台 上 的 一 个 开源 OLAP 引 警 。 它 采用 多 维 立 方 体 预计 算 技 术 ， 可 以 将 大 数据 的 SQL 查询 速 
度 提升 到 亚 秒 级 别 。 相 对 于 之 前 的 分 钟 乃至 小 时 级 别 的 查询 速度 ， 亚 秒 级 别 速 度 是 百倍 到 干 倍 的 提升 ， 该 引擎 为 超大 规模 数据 集 
上 的 交互 式 大 数据 分 析 打 开 了 大 门 。 


Apache Kylin 也 是 中 国人 主导 的 、 唯 一 的 Apache 顶 级 开源 项 目 ， 在 开源 社区 有 世界 级 的 影响 力 。 
本 章 将 对 Apache Kylin 的 历史 和 背景 做 一 个 完整 的 介绍 ， 并 从 技术 的 角度 对 Kylin 做 一 个 概览 性 的 介绍 。 


本 书 内 容 以 Apache Kylin v1.5 为 基础 。 


1.1 背景 和 历史 


今天 ， 大 数据 领域 的 发 展 如 火 如 茶 ， 各 种 新 技术 层出不穷 ， 整 个 生态 欣欣 向 荣 。 作 为 大 数据 领域 最 重要 的 技术 一 Apache 
Hadoop， 从 诞生 至 今 已 有 10 周 年 。 它 最 初 只 是 致力 于 简单 的 分 布 式 人 存储， 然后 在 其 之 上 实现 大 规模 并 行 计算 ， 到 如 今 它 已 在 实 
时 分 析 、 多 维 分 析 、 交 互 式 分 析 、 机 器 学 习 甚至 人 工 智能 等 方面 都 有 着 长 足 的 发 展 。 


2013 年 年 初 ，eBay 内 部 使 用 的 传统 数据 仓库 及 商业 智能 平台 应 用 碰 到 了 瓶颈 ， 即 传统 的 架构 只 支持 垂直 扩展 ， 通 过 在 一 台 
机 器 上 增加 CPU 和 内 存 等 资源 来 提升 数据 处 理 能 力 ， 相 对 于 数据 指数 级 的 增长 ， 单 机 扩展 很 快 就 达到 了 极限 。 另 一 方 
面 ，Hadoop 大 数据 平台 虽然 能 存储 和 批量 处 理 大 规模 数据 ， 但 与 Bl 平台 的 连接 技术 依然 不 成 熟 ， 无 法 提供 高 效 的 交互 式 查询 。 
于 是 寻找 更 好 的 方案 便 成 为 了 当务之急 。 正 好 在 2013 年 年 中 的 时 候 eBay 公 司 启动 了 一 个 大 数据 项 目 ， 其 中 的 一 块 内 容 就 是 Bl on 
Hadoop 的 预 研 。 当 时 eBay 中 国 卓 越 中 心 组 建 了 一 支 很 小 的 团队 ， 他 们 在 分 析 和 测试 了 多 种 开源 和 商业 解决 方案 之 后 ， 发 现 没 
有 一 种 方案 能 够 完全 满足 当时 的 需求 ， 即 在 超大 规模 数据 集 上 提供 秒 级 的 查询 性 能 ， 并 能 基于 Hadoop 与 BI 平台 无 颖 整合 等 。 在 
研究 了 多 种 可 能 性 之 后 ， 最 终 eBay 的 Apache Kylin 核 心 团队 决定 自己 实现 一 套 OLAP on Hadoop 的 解决 方案 ， 以 弥补 业界 的 这 
个 空白 。 与 此 同时 ，eBay 公 司 也 非常 鼓励 开源 各 个 项 目 ， 回 馈 社 区 ，eBay 的 Apache Kylin 核 心 团队 在 向 负责 整个 技术 平台 的 高 
级 副 总 裁 做 汇报 的 时 候 ， 得 到 的 一 个 反馈 就 是 “要 从 第 一 天 就 做 好 开源 的 准备 ”。 
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图 1-1  Hortonworks CTO JE Twitter Ej Apache Kylin 的 评论 


经 过 一 年 多 的 研发 ， 在 2014 年 的 9 月 底 ，Kylin 平 台 在 eBay 内 部 正式 上 线 。 它 一 上 线 便 吸引 了 多 个 种 子 客户 。Kylin 在 
Hadoop 上 提供 了 标准 的 、 友 好 的 SQL 接口 ， 外 加 查询 速度 非常 迅速 ， 原 本 要 用 几 分 钟 的 查询 现在 几 秒 钟 就 能 返回 结果 ，BI 分 析 
的 工作 效率 得 到 了 几 百 倍 的 提升 ， 因 此 Kylin 获 得 了 公司 内 部 客户 、 合 作 伙伴 及 管理 层 的 高 度 评价 。2014 年 10 月 1 日 ， 项 目 负责 
人 韩 卿 将 Kylin 的 源 代码 提交 到 github.com 并 正式 开源 ， 当 天 就 获得 了 业界 专家 的 关注 和 认可 ， 如 图 1-1 所 示 的 是 Hortonworks 
的 CTO 在 Twitter 上 对 此 给 出 的 评价 。 


很 快 ，Hadoop 社 区 的 许多 朋友 都 鼓励 eBay 的 Apack Kylin 核 心 团队 将 该 项 目 贡献 到 Apache 软 件 基 金 会 (AsF) ， 让 它 能 
与 其 他 大 数据 项 目 一 起 获得 更 好 的 发 展 ， 在 经 过 一 个 月 的 紧张 筹备 和 撰写 了 无 数 个 版 本 的 项 目 建议 书 之 后 ，Kylin 项 目 于 2014 年 
11 月 正式 加 入 Apache 孵 化 器 项 目 ， 并 有 多 位 资深 的 社区 活跃 成 员 作 我 们 的 导师 。 


在 项 目 组 再 次 付出 无 数 努力 之 后 ，2015 年 的 11 月 ，Apache 软 件 基金 会 宣布 Apache Kylin 正 式 成 为 顶级 项 目 。 这 是 第 一 个 
也 是 唯一 一 个 完全 由 我 国 团队 贡献 到 全 球 最 大 的 开源 软件 基金 会 的 顶级 项 目 。 项 目 负 责 人 韩 妖 成 为 Apache Kylin 的 项 目 管理 委 
员 会 (PMC) 主席 ， 也 是 Apache 软 件 基金 会 160 多 个 顶级 项 目 中 的 唯一 一 个 中 国人 ，Apache Kyln 创 造 了 历史 。 正 如 Kylin 的 导 
师 一 一 Apache 铸 化 器 副 总 裁 Ted Dunning 在 ASF 官 方 新 闻 稿 中 的 评价 : “…Apache Kylin 代 表 了 亚洲 国家 ， 特 别 是 中 国 ， 在 开 
源 社 区 中 越 来 越 高 的 参与 度 ..…… . 


2016 年 3 月 ， 由 Apache Kylin 核 心 开发 者 组 建 的 创业 公司 Kyligence 正 式 成 立 。 就 如 每 一 个 成 功 的 开源 项 目 背 后 都 有 一 家 创 
业 公司 一 样 (Hadoop 领 域 有 Cloudera、Hortoworks 等 ; Spark 领 域 有 Databricks; Kafka 领 域 有 Conf? luent) ，Kylin 也 可 
以 通过 Kyligence 的 进一步 投入 保持 高 速 研发 ， 并 且 Kylin 的 社区 和 生态 圈 也 会 得 到 不 断 的 发 展 和 壮大 ， 可 以 预见 这 个 开源 项 目 将 
会 越 来 越 好 。 


在 业界 最 负 盛 名 的 技术 类 独立 评选 中 ，InfoWorld 的 Bossie Award 每 年 都 会 独立 挑选 和 评论 相关 的 技术 、 应 用 和 产品 等 。 
2015 年 9 月 ，Apache Kylin 获 得 了 2015 年 度 的 “最 佳 开源 大 数据 工具 奖 ”，2016 年 9 月 ，Apache Kylin 再 次 蝉联 此 国际 大 奖 ， 
与 Google TensorFlow 齐 名 。 这 是 业界 对 Apache Kylin 的 充分 认可 和 褒奖 。 


1.2 Apache Kylin 的 使 命 


Kylin 的 使 命 是 超 高 速 的 大 数据 OLAP (Online Analytical Processing) ， 也 就 是 要 让 大 数据 分 析 像 使 用 数据 库 一 样 简单 迅 
速 ， 用 户 的 查询 请 求 可 以 在 秒 内 返回 ， 交 互 式 数据 分 析 将 以 前 所 未 有 的 速度 释放 大 数据 里 潜藏 的 知识 和 信息 ， 让 我 们 在 面 对 未 来 


的 挑战 时 占 得 先 机 。 


1.3 Apache Kylin 的 工作 原理 


Apache Kylin 的 工作 原理 本 质 上 是 MOLAP (Multidimensional Online Analytical Processing) Cube， 也 就 是 多 维 立方 
体 分 析 。 这 是 数据 分 析 中 相当 经 典 的 理论 ， 在 关系 数据 库 年 代 就 已 经 有 了 广泛 的 应 用 ， 下 面 将 对 其 做 简要 介绍 。 


1.4 Apache Kylin 的 技术 架构 


Apache Kylin 系 统 可 以 分 为 在 线 查询 和 离线 构建 两 部 分 ， 


构建 则 处 于 下 半 区 。 


第 三 方 应 用 
( Web App、Mobile 等 ) 


Rest API 


SQL 


" 


( BI Tools: Tableau 等 ) 


查询 引擎 


J 
ita 


技术 架构 如 图 1-4 所 示 ， 在 线 查 询 的 模块 主要 处 于 上 半 区 ， 而 离线 


SQL 应 用 > 在 线 查 询 数据 流 
> 离线 构建 数据 流 
> 应 用 从 SQL 接 口 访问 Kyliln 
> OLAP Cube 对 SQL 用 户 透 明 


< 


一 一 一 


JDBC/ODBC 


— MÀ 


数据 源 抽 象 


星 形 结构 数据 源 ， 


存储 引擎 抽象 


图 1-4 Kylin 的 技术 架构 


我 们 首先 来 看 看 离线 构建 的 部 分 。 从 图 1-4 可 以 看 出 ， 数 据 源 在 左 侧 ， 目 前 主要 是 Hadoop Hive， 保存 着 待 分 析 的 用 户 数 
据 。 根 据 元 数据 的 定义 ， 下 方 构建 引擎 从 数据 源 抽取 数据 ， 并 构建 Cube。 数 据 以 关系 表 的 形式 输入 ， 且 必须 符合 星 形 模型 


(Star Schema) “(更 复杂 的 雪花 模型 在 成 文 时 还 不 被 支持 ， 可 以 用 视图 将 雪人 花 模 型 转化 为 星 形 模型 ， 再 使 用 Kylin) 。 
MapReduce 是 当前 主要 的 构建 技术 。 构 建 后 的 Cube 保 存在 右 侧 的 存储 引擎 中 ， 一 般 选 用 HBase 作 为 存储 。 


完成 了 离线 构建 之 后 ， 用 户 可 以 从 上 方 查询 系统 发 送 SQL 进 行 查询 分 析 。Kylin 提 供 了 各 种 Rest API、JDBC/ODBC 接 口 。 无 
论 从 哪个 接口 进入 ，SQL 最 终 都 会 来 到 Rest 服 务 层 ， 青 转交 给 查询 引擎 进行 处 理 。 这 里 需要 注意 的 是 ，SQL 语 句 是 基于 数据 源 的 
关系 模型 书写 的 ， 而 不 是 Cube。Kylin 在 设计 时 刻意 对 查询 用 户 屏蔽 了 Cube 的 概念 ， 分 析 师 只 需要 理解 简单 的 关系 模型 就 可 以 
使 用 Kylin， 没 有 额外 的 学 习 门 槛 ， 传 统 的 SQL 应 用 也 很 容易 迁移 。 查 询 引 警 解析 SQL， 人 生成 基于 关系 表 的 逻辑 执行 计划 ， 然 后 将 
其 转译 为 基于 Cube 的 物理 执行 计划 ， 最 后 查询 预计 算 生成 的 Cube 并 产生 结果 。 整 个 过 程 不 会 访问 原始 数据 源 。 


. 注意 ”对 于 查询 引擎 下 方 的 路 由 选择 ， 在 最 初 设计 时 曾 考 虑 过 将 Kylin 不 能 执行 的 查询 引导 去 Hive 中 继续 执行 ， 但 在 实践 
后 发 现 Hive 与 Kylin 的 速度 差异 过 大 ， 导 致 用 户 无 法 对 查询 的 速度 有 一 致 的 期 望 ， 很 可 能 大 多 数 查询 几 秒 内 就 返回 结果 了 ， 而 有 
些 查 询 则 要 等 几 分 钟 到 几 十 分 钟 ， 因 此 体验 非常 炎 糕 。 最 后 这 个 路 由 功能 在 发 行 版 中 默认 关闭 ， 因 此 在 图 1-4 中 是 用 虚线 表示 
的 。 


Apache Kylin1.5 版 本 引入 了 “可 扩展 架构 ”的 概念 。 在 图 1-4 中 显示 为 三 个 粗 虚 线 框 表示 的 抽象 层 。 可 扩展 指 Kylin 可 以 对 
其 主要 依赖 的 三 个 模块 做 任意 的 扩展 和 蔡 换 。Kylin 的 三 大 依赖 模块 分 别 是 数据 源 、 构 建 引擎 和 存储 引擎 。 在 设计 之 初 ， 作 为 
Hadoop 家 族 的 一 员 ， 这 三 者 分 别 是 Hive、MapReduce 和 HBase。 但 随 着 推广 和 使 用 的 深入 ， 渐 渐 有 用 户 发 现 它们 均 存 在 不 足 
之 处 。 比 如 ， 实 时 分 析 可 能 会 希望 从 Kafka 导 入 数据 而 不 是 从 Hive; 而 Spark 的 迅速 崛起 ， 又 使 我 们 不 得 不 考虑 将 MapReduce 
替换 为 Spark， 以 期 大 幅 提 高 Cube 的 构建 速度 ; 至 于 HBase， 它 的 读 性 能 可 能 还 不 如 Cassandra 或 Kudu 等 。 可 见 ， 是 否 可 以 将 
一 种 技术 替换 为 另 一 种 技术 已 成 为 一 个 常见 的 问题 。 于 是 我 们 对 Kylin1.5 版 本 的 系统 架构 进行 了 重 构 ， 将 数据 源 、 构 建 引擎 、 存 
储 引擎 三 大 依赖 抽象 为 接口 ， 而 Hive、MapReduce、HBase 只 是 默认 实现 。 深 度 用 户 可 以 根据 自己 的 需要 做 二 次 开发 ， 将 其 中 
的 一 个 或 多 个 蔡 换 为 更 适合 的 技术 。 


这 也 为 Kylin 技 术 的 与 时 俱 进 埋 下 了 伏笔 。 如 果 有 一 天 更 先进 的 分 布 式 计算 技术 取代 了 MapReduce， 或 者 更 高 效 的 存储 系统 
全 面 超越 了 HBase，Kylin 可 以 用 较 小 的 代价 将 一 个 子 系统 蔡 换 掉 ， 从 而 保证 Kylin 能 够 紧 跟 技术 发 展 的 最 新 潮流 ， 从 而 保持 最 高 
的 技术 水 平 。 


可 扩展 架构 也 带 来 了 额外 的 灵活 性 ， 比 如 ， 它 可 以 允许 多 个 引擎 同时 并 存 。 例 如 Kylin 可 以 同时 对 接 Hive、Kafka 和 其 他 第 三 
方 数据 源 ; 抑或 用 户 可 以 为 不 同 的 Cube 指 定 不 同 的 构建 引擎 或 存储 引 警 ， 以 期 达到 最 极致 的 性 能 和 功能 定制 。 


1.5 Apache Kylin 的 主要 特点 


Apache Kylin 的 主要 特点 包括 支持 SQL 接口 、 支 持 超大 数据 集 、 秒 级 响应 、 可 伸缩 性 、 高 吞吐 率 、BI 工 具 集 成 等 。 


1.6 与 其 他 开源 产品 比较 


与 Apache Kylin 一 样 致力 于 解决 大 数据 查询 问题 的 其 他 开源 产品 也 有 不 少 ， 比 如 Apache Drill, Apache Impala, Druid, 
Hive, Presto (Facebook) 、SparkSQL 等 。 本 节 试 图 将 Kylin 与 它们 做 一 个 简单 的 比较 。 


从 底层 技术 的 角度 来 看 ， 这 些 开源 产品 有 很 大 的 共性 ， 一 些 底层 技术 几乎 被 所 有 的 产品 一 致 采用 ，Kylin 也 不 例外 。 


KIKAT: 可 以 通过 增加 机 器 的 方式 来 扩容 处 理 速 度 ， 在 相同 的 时 间 里 处 理 更 多 的 数据 。 

* 列 式 存 储 : 通过 按 列 存储 提高 单位 时 间 里 数据 的 I/ 〇 吞吐 率 ， 还 能 跳 过 不 需要 访问 的 列 。 

` 索引: 利用 索引 配合 查询 条 件 ， 可 以 迅速 跳 过 不 符合 条 件 的 数据 块 ， 仅 扫描 需要 扫描 的 数据 内 容 。 

* 压缩 : 压缩 数据 然后 存储 ， 使 得 存储 的 密度 更 高 ， 在 有 限 的 I/O 速 率 下 ， 在 单位 时 间 里 读 取 更 多 的 记录 。 


综 上 所 述 ， 我 们 可 以 注意 到 ， 所 有 这 些 方法 都 只 是 提高 了 单位 时 间 内 处 理 数据 的 能 力 ， 当 大 家 都 一 致 采用 这 些 技 术 时 ， 它 们 
之 间 的 区 别 将 只 停留 在 实现 层面 的 代码 细节 上 。 最 重要 的 是 ， 这 些 技术 都 不 会 改变 一 个 事实 ， 那 就 是 处 理 时 间 与 数据 量 之 间 的 正 
比例 关系 。 当 数据 量 翻 倍 时 ，MPP (在 不 扩容 的 前 提 下 ) 需要 翻 倍 的 时 间 来 完成 计算 ; 列 式 存储 需要 翻 倍 的 存储 空间 ; 索引 下 
符合 条 件 的 记录 数 也 会 翻 倍 ; 压缩 后 的 数据 大 小 也 还 是 之 前 的 两 倍 。 因 此 碍 询 速度 也 会 随 之 变 成 之 前 的 两 倍 。 当 数据 量 成 十 倍 百 
倍 地 增长 时 ， 这 些 技术 的 查询 速度 就 会 成 十 倍 百 倍 地 下 降 ， 最 终 变 得 不 能 接受 。 


Apache Kylin 的 特色 在 于 ， 在 上 述 的 底层 技术 之 外 ， 另 辟 蹊 径 地 使 用 了 独特 的 Cube 预 计算 技术 。 预 计算 事先 将 数据 按 维度 
组 合 进行 了 聚合 ， 将 结果 保存 为 物化 视图 。 经 过 聚合 ， 物 化 视图 的 规模 就 只 由 维度 的 基数 来 决定 ， 而 不 再 随 着 数据 量 的 增长 呈 线 
性 增长 。 以 电 商 为 例 ， 如 果 业 务 扩 张 ， 交 易 量 增长 了 10 倍 ， 只 要 交易 数据 的 维度 不 变 (供应 商 /商品 数量 不 变 ) ， 聚 合 后 的 物化 
视图 将 依旧 是 原先 的 大 小 ， 查 询 的 速度 也 将 保持 不 变 。 


与 那些 类 似 产 品 相 比 ， 这 一 底层 技术 的 区 别 使 得 Kylin 从 外 在 功能 上 呈现 出 了 不 同 的 特性 ， 具 体 如 下 。 


“SQL 接口 : 除了 Druid 以 外 ， 所 有 的 产品 都 支持 SQL 或 类 SQL 接 口 。 巧 合 的 是 ，Druid 也 是 除了 Kylin 以 外 ， 查 询 性 能 相对 更 
好 的 一 个 。 这 点 除了 Druid 有 自己 的 存储 引擎 之 外 ， 可 能 还 得 益 于 其 较为 受 限 的 查询 能 力 。 


" 大 数据 支持 : 大 多 数 产 品 的 能 力 在 亿 级 到 十 亿 级 数据 量 之 间 ， 再 大 的 数据 量 将 显著 降低 查询 的 性 能 。 而 Kylin 因 为 采用 预 
计算 技术 ， 因 此 查询 速度 不 受 数据 量 限制 。 有 实际 案例 证 明 数 据 量 在 千 亿 级 别 时 ，Kylin 系 统 仍然 能 够 保有 秒 级 别 的 查询 性 能 。 


. 查询 速度 : 如 前 文 所 述 ， 一 般 产 品 的 查询 速度 都 会 不 可 避免 地 随 着 数据 量 的 增长 而 下 降 ， 而 Kylin 则 能 够 在 数据 量 成 倍增 
长 的 同时 ， 查 询 速度 保持 不 变 ， 而 且 这 个 差距 也 将 随 着 数据 量 的 成 倍增 长 而 变 得 愈加 明显 。 


(Gub: 根据 之 前 的 实验 数据 ，Kylin 的 单 例 吞 吐 量 一 般 在 每 秒 70 个 查询 左右 ， 并 且 可 以 线性 扩展 ， 而 普通 的 产品 因为 所 
有 计算 都 在 查询 时 完成 ， 所 以 需要 调动 集群 的 更 多 资源 才能 完成 查询 ， 通 常 极限 在 每 秒 20 个 查询 左右 ， 而 且 扩容 成 本 较 高 ， 需 要 
扩展 整个 集群 。 相 对 的 ，Kylin 系 统 因为 瓶颈 不 在 整个 集群 ， 而 在 于 Kylin 服 务 器 ， 因 此 只 需要 增加 Kylin 服 务 器 就 能 成 倍 地 提高 吞 
吐 率 ， 扩 容 成 本 低廉 。 
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本 章 介绍 了 Apache Kylin 的 历史 背景 和 技术 特点 。 尤 其 是 它 基 于 预计 算 的 大 数据 查询 原理 ， 理 论 上 可 以 在 任意 大 的 数据 规 
模 上 达到 O (1) 常数 级 别 的 查询 速度 ， 这 一 点 也 是 Apache Kylin 与 传统 查询 技术 的 关键 区 别 ， 如 图 1-6 所 示 。 传 统 技 术 ， 如 大 
规模 并 行 计算 和 列 式 存 储 的 查询 速度 都 在 O(N) 级 别 ， 与 数据 规模 增 线性 关系 。 如 果 数 据 规模 增长 10 倍 ， 那 么 O (N) 的 查询 
速度 就 会 下 降 到 十 分 之 一 ， 无 法 满足 日 益 增 长 的 数据 需求 。 依 靠 Apache Kylin ， 我 们 不 用 再 担心 查询 速度 会 随 着 数据 量 的 增长 
而 减 慢 ， 面 对 未 来 的 数据 挑战 时 也 能 更 有 信心 。 


查询 时 间 ON) 


O(1) 


| 数据 量 


图 1-6 ”查询 时 间 复 杂 度 O(1) 比 O(N) 


第 2 章 ”快速 入 门 


第 1 章 介绍 了 Kylin 的 概况 ， 以 及 与 其 他 SQL on Hadoop 技 术 的 比较 ， 相 信 读 者 对 Kylin 已 经 有 了 一 个 整体 的 认识 。 本 章 将 详 
细 介 绍 Kylin 的 一 些 核心 概念 ， 然 后 带领 读者 逐步 定义 数据 模型 ,创建 Cube， 并 通过 SQL 来 查询 Cube， 以 帮助 读者 对 Kylin 有 更 


JICA 


为 直观 的 了 解 。 


2.1 核心 概念 


在 开始 使 用 Kylin 之 前 ,我 们 有 必要 先 了 解 一 下 Kylin 里 的 各 种 概念 和 术语 ， 为 后 续 章节 的 学 习 葛 定 基础 。 


2.2 在 Hive 中 准备 数据 


2.1 节 介绍 了 Kylin 中 的 常见 概念 。 本 节 将 介绍 准备 Hive 数 据 的 一 些 注意 事项 。 需 要 被 分 析 的 数据 必须 先 保存 为 Hive 表 的 形 
式 ， 然 后 Kylin 才 能 从 Hive 中 导入 数据 ， 创 建 Cube。 

Apache Hive 是 一 个 基于 Hadoop 的 数据 仓库 工具 ， 最 初 由 Facebook 开 发 并 贡献 到 Apache 软 件 基金 会 。Hive 可 以 将 结构 化 
的 数据 文件 映射 为 数据 库 表 ， 并 可 以 将 SQL 语句 转换 为 MapReduce 或 Tez 任 务 进 行 运行 ， 从 而 让 用 户 以 类 SQL (HiveQL， 也 称 
HQL) 的 方式 管理 和 查询 Hadoop 上 的 海量 数据 。 


此 外 ，Hive 还 提供 了 多 种 方式 (如 命令 行 、API 和 Web 服 务 等 ) 可 供 第 三 方 方 便 地 获取 和 使 用 元 数据 并 进行 查询 。 今 


天 ，Hive 已 经 成 为 Hadoop 数 据 仓库 的 首选 ， 是 Hadoop 上 不 可 或 缺 的 一 个 重要 组 件 ， 很 多 项 目 都 已 兼容 或 集成 了 Hive。 基 于 此 
情况 ，Kylin 选 择 Hive 作 为 原始 数据 的 主要 来 源 。 


在 Hive 中 准备 待 分 析 的 数据 是 使 用 Kylin 的 前 提 ; 将 数据 导入 到 Hive 表 中 的 方法 有 很 多 ， 用 户 管理 数据 的 技术 和 工具 也 各 式 
各 样 ， 因 此 具体 步骤 不 在 本 书 的 讨论 范围 之 内 。 如 有 需要 可 以 参考 Hive 的 使 用 文档 。 这 里 将 着 重 前 述 需要 注意 的 几 个 事项 。 


2.3 设计 Cube 


如 果 数 据 已 经 在 Hive 中 准备 好 了 ， 并 且 已 经 满足 了 2.2 节 中 介绍 的 条 件 ， 那 么 就 可 以 开始 设计 和 创建 Cube 了 。 本 节 将 按 通 常 
的 步骤 介绍 Cube 是 如 何 进行 创建 的 。 


2.4 构建 Cube 


新 创建 的 Cube 只 有 定义 ， 而 没有 计算 的 数据 ， 它 的 状态 是 “DISABLED” ， 是 不 会 被 查询 引擎 挑 中 的 。 要 想 让 Cube 有 数 
据 ， 还 需要 对 它 进行 构建 。Cube 的 构建 方式 通常 有 两 种 : 全 量 构建 和 增 量 构建 ; 两 者 的 构建 步骤 是 完全 一 样 的 ， 区 别 只 在 于 构 
建 时 读 取 的 数据 源 是 全 集 还 是 子 集 。 


Cube 的 构建 包含 如 下 步骤 ， 由 任务 引擎 来 调度 执行 。 
1) 创建 临时 的 Hive 平 表 (从 Hive 读 取 数 据 ) 。 

2) 计算 各 维度 的 不 同 值 ， 并 收集 各 Cuboid 的 统计 数据 。 
3) 创建 并 保存 字典 。 

4) 保存 Cuboid 统 计 信 息 。 

5) 创建 HTable。 

6) 计算 Cube (一 轮 或 若干 轮 MapReduce) 。 

7) 将 Cube 的 计算 结果 转 成 HFile。 

8) 加 载 HFile 到 HBase。 

9) 更 新 Cube 元 数据 。 

10) 垃圾 回收 。 


以 上 步骤 中 ， 前 5 步 是 为 计算 Cube 而 做 的 准备 工作 ， 例 如 遍历 维度 值 来 创建 字典 ， 对 数据 做 统计 和 估算 以 创建 HTable 等 ; 
第 6) 步 是 真正 的 Cube 计 算 ， 取 决 于 所 使 用 的 Cube 算 法 ， 它 可 能 是 一 轮 MapReduce 任 务 ， 也 可 能 是 N (在 没有 优化 的 情况 


下 ，N 可 以 被 视 作 是 维度 数 ) 轮 和 迭代 的 MapReduce。 由 于 Cube 运 算 的 中 间 结 果 是 以 sequenceFile 的 格式 存储 在 HDFS 上 的 ， 所 
以 为 了 导入 到 HBase 中 ， 还 需要 第 7) 步 将 这 些 结果 转换 成 HFile (HBase 文 件 人 存储 格式 ) 。 第 8) 步 通过 使 用 HBase BulkLoad 工 
E, 将 HFile 导 入 进 HBase 集 群 ， 这 一 步 完 成 之 后 ，HTable 就 可 以 查询 到 数据 了 。 第 9) 步 更 新 Cube 的 数据 ， 将 此 次 构建 的 
Segment 的 状态 从 “NEW” 更 新 为 “READY” ， 表 示 已 经 可 供 查 询 了 。 最 后 一 步 ， 清 理 构 建 过 程 中 生成 的 临时 文件 等 垃圾 ， 释 
放 集 群 资 源 。 


Monitor 页 面 会 显示 当前 项 目下 近期 的 构建 任务 。 图 2-19 显 示 了 一 个 正在 运行 的 Cube 构 建 的 任务 ， 当 前 进度 为 46% 多 。 


Jobs in:| LAST ONE WEEK Bc NEW O PENDING O RUNNING O FINISHED O ERROR O DISCARDED 


Job Name $ Cube $ Progress $ Last Modified Time ~ Duration $ Actions 


sales cube - 20120101000000 20120801000000 - BUILD - PDT 2016-06-19 sales cube 46.67 96 2016-06-19 05:53:34 PST 1.70 mins | Action v | 
06:50:58 


图 2-19 ”任务 列表 


单 击 任务 右边 的 “#” 按 钮 ， 展 开 可 以 得 到 任务 每 一 步 的 详细 信息 ， 如 图 2-20 所 示 。 


© 2016-06-19 05:52:49 PST 


#4 Step Name: Save Cuboid Statistics 
Duration: 0.00 mins 


国 


© 2016-06-19 05:52:49 PST 


#5 Step Name: Create HTable 
Duration: 0.06 mins 


& [3] 


© 2016-06-19 05:52:53 PST 


46 Step Name: Build Base Cuboid Data 
Data Size: 14.40 KB 
Duration: 0.35 mins 


QBS 


图 2-20 任务 步 又 列表 


如 果 任 务 中 的 某 一 步 是 执行 Hadoop 任 务 的 话 ， 那 么 会 显示 Hadoop 任 务 的 链接 ， 单 击 即 可 跳 转 到 对 应 的 Hadoop 任 务 监 测 
页 面 ， 如 图 2-21 所 示 。 


如 果 任 务 执行 中 的 某 一 步 出 现 报 错 ， 那 么 任务 引擎 会 将 任务 状态 置 为 “ERROR” 并 停止 后 续 的 执行 ， 等 待 用 户 排 错 。 在 错 
误 排 除 之 后 ， 用 户 可 以 单 击 “Resume” 从 上 次 失败 的 地 方 恢复 执行 。 或 者 如 果 需 要 修改 Cube 或 重新 开始 构建 ， 那 么 用 户 需要 
单 击 “Discard” 来 丢弃 此 次 构建 。 


接 下 来 将 介绍 几 种 不 同 的 构建 方式 。 


ame: Kylin Base Cuboid Builder sales cube 
: root 


: default 

: SUCCEEDED 

: false 

: SunJun 19 12:53:57 UTC 2016 
: Sun Jun 19 12:54:04 UTC 2016 


: SunJun 19 12:54:15 UTC 2016 
: 11sec 


3sec 
Time 2sec 


[2-21 MapReduce 任 务 监 测 页 面 


2.5 Cube 


.注意 ”本 节 将 简要 介绍 如 何 查询 Cube。 更 多 内 容 请 参考 后 续 的 章节 (如 第 5 章 ) 。 


Cube 构 建 好 以 后 ， 状 态 变 为 “READY” ， 就 可 以 进行 查询 了 。Kylin 的 查询 语言 是 标准 SQL 的 SELECT 语句 ， 这 是 为 了 获得 
与 大 多 数 Bl 系 统 和 工具 无 颖 集成 的 可 能 性 。 通 常 的 一 个 查询 语句 类 似 于 如 下 的 SQL: 


SELECT DIM1, DIM2, :*, MEASURE1, MEASURE2::* FROM FACT TABLE 
INNER JOIN LOOKUP 1 ON FACT TABLE.FK1 = LOOKUP 1l.PK 
INNER JOIN LOOKUP 2 ON FACT TABLE.FK2 - LOOKUP 2.PK 

WHERE FACT TABLE.DIMN - ' AND 
GROUP BY DIM1, DIM2:- 


需要 了 解 的 是 ， 只 有 当 查 询 的 模式 跟 Cube 定 义 相 匹配 的 时 候 ，Kylin 才 能 够 使 用 Cube 的 数据 来 完成 查询 。Group By 的 列 和 
Where 条 件 里 的 列 ， 必 须 是 在 Dimension 中 定义 的 列 ， 而 SQL 中 的 度量 ， 应 该 跟 Cube 中 定义 的 度量 相 一 致 。 


在 一 个 项 上 目下， 如 果 有 多 个 基于 同一 模型 的 Cube， 而 且 它 们 都 满足 查询 对 表 、 维 度 和 度量 的 要 求 ; 那么 ，Kylin 会 挑选 一 
个 “最 优 的 ”Cube 来 进行 查询 ; 这 是 一 种 基于 成 本 (cost) 的 选择 ，Cube 的 成 本 计算 中 包括 多 方面 的 因素 ， 例 如 Cube 的 维度 
数 、 度 量 、 数 据 模 型 的 复杂 度 等 。 查 询 引 擎 将 为 每 个 Cube 为 完成 此 SQL 估算 一 个 成 本 值 ， 然 后 选择 成 本 最 小 的 Cube 来 完成 此 查 
询 。 


如 果 查 询 是 在 Kylin 的 Web GUI 上 进行 的 ， 那 么 查询 结果 会 以 表 的 形式 展现 出 来 ， 如 图 2-28 所 示 。 所 执行 的 Cube 名 称 也 会 
一 同 显示 。 用 户 可 以 单 击 “Visualization” 按 钮 生成 简单 的 可 视 化 图 形 ， 或 单 击 “Export” 按 钮 将 结果 集 下 载 到 本 地 。 


Status: Project: learn kylin Cubes: kylin sales cube 


Results (731) laii Visualization | | & Export || e 


PART DT v |EXPRS$1 ~ 


2012-01-01 12 [| 


2012-01-02 | 17 


2012-01-03 14 
2012-01-04 | 10 
2012-01-05 18 


图 2-28 查询 结果 展示 


26 SQL 参考 


Apache Kylin 支 持 标准 SQL 作 为 查询 语言 ， 但 是 SQL 有 很 多 变 体 ，Kylin 支 持 的 只 是 SQL 所 有 变 体 中 的 一 个 子 集 ， 并 不 是 支持 
所 有 现存 的 SQL 语 句 和 语法 。 用 户 在 使 用 Kylin 之 前 ， 需 要 对 Kylin 所 支持 的 SQL 有 一 个 了 解 ， 以 避免 走 弯路 。 


首先 ，Kylin 作 为 OLAP 引 擎 ， 只 支持 查询 ， 而 不 支持 其 他 操作 ， 如 插入 、 更 新 等 ， 即 所 有 的 SQL 都 必须 是 SELECT 语 句 ， 否 
则 Kylin 会 报错 。 


第 二 ， 查 询 Kylin 中 SQL 语 句 的 表 名 、 列 名 、 度 量 、 连 接 关系 时 ， 需 要 至 少 跟 一 个 Cube 的 模型 相 匹 配 ， 在 设计 Cube 的 时 
lk, 需要 充分 考虑 查询 的 需求 ， 避 免 遗 漏 表 、 列 等 信息 。 


第 三 ，Kylin 使 用 Apache Calcite 做 SQL 语 法 分 析 。Apache Calcite 是 一 个 开源 的 SQL 引 擎 ， 它 提供 了 标准 SQL 解 析 、 多 种 查 
询 优 化 和 连接 各 种 数据 源 的 能 力 ; Calcite 项 目 在 Hadoop 中 越 来 越 引 人 注意 ， 并 且 已 被 众多 项 目 集成 为 SQL 解析 器 。 


一 条 SQL 语句 首先 需要 被 Calcite 解 村， 然后 才 可 以 被 Kylin 执 行 。 下 面 是 Calcite 中 的 SELECT 语句 的 语法 ( 引 自 


https: //calcite.apache.org/docs/reference.html) : 


SELECT [ STREAM ] [ ALL DISTINCT ] 
二 projectItem [, projectItem ]* } 
FROM tableExpression 
[ WHERE booleanExpression ] 
GROUP BY ( groupItem [, groupItem ]* ) ] 
ression ] 


[ 
[ HAVING booleanExp 
[ WINDOW windowName 


AS windowSpec [, windowName AS windowSpec ]* ] 
projectItem: 
expression [ [ AS ] columnAlias ] 
tableAlias . * 
tableExpression: 
tableReference [, tableRefterence ]* 
| tableExpression [ NATURAL ] [ LEFT | RIGHT FULL ] JOIN tableExpression 


[ joinCondition | 
joinCondition: 


ON booleanExpression 
c 


USING '(' olumn [> column ]* ')' 


第 四 ， 不 是 所 有 的 Calcite 能 够 解析 的 SELECT 语句 都 可 以 被 Kylin 执 行 ; 还 有 一 些 SQL 功能 ， 现 阶段 Kylin (截止 v1.5.3) 还 不 
支持 ， 未 来 会 考虑 加 以 实现 ， 目 前 已 知 的 有 如 下 三 项 SQL 功能 。 


: Windows Zt: https: //issues.apache.org/jira/browse/KYLIN-1732 
: Union: https: //issues.apache.org/jira/browse/ KY LIN-1206 
: Between AND: https: //issues.apache.org/jira/browse/KYLIN-1770 


上 述 三 个 功能 已 经 在 Apache Kylin 主 分 支 上 得 以 实现 ， 但 目前 (2016 年 8 月 ) 还 未 包含 在 最 新 的 发 行 版 中 。 如 无 意外 ， 应 该 
会 在 下 一 个 发 行 版 中 发 布 。 
2 dE 


本 章 介 绍 了 使 用 Apache Kylin 必 备 的 基本 概念 ， 如 星 形 数据 模型 、 事 实 表 、 维 表 、 维 度 、 度 量 等 ， 并 在 这 些 基础 上 快速 创 
建 了 基于 Sample Data 的 模型 ， 构 建 Cube， 最 后 执行 SQL 查询 。 带 领 读者 体验 了 Apache Kylin 的 主要 使 用 过 程 。 后 续 的 章节 将 
继续 展开 和 探讨 这 个 过 程 中 的 一 些 关 键 技 术 ， 比 如 增 量 构建 、 可 视 化 和 Cube 优 化 等 。 


第 3 章 “” 增 量 构建 


第 2 章 介绍 了 如 何 构建 Cube 并 利用 其 完成 在 线 多 维 分 析 的 查询 。 每 次 Cube 的 构建 都 会 从 Hive 中 批量 读 取 数 据 ， 而 对 于 大 多 
数 业务 场景 来 说 ，Hive 中 的 数据 处 于 不 断 增长 的 状态 。 为 了 支持 Cube 中 的 数据 能 够 不 断 地 得 到 更 新 ， 且 无 需 重复 地 为 已 经 处 理 


过 的 历史 数据 构建 Cube， 因 此 对 于 Cube 引 入 了 增 量 构建 的 功能 。 


我 们 将 Cube 划 分 为 多 个 Segment， 每 个 segment 用 起 始 时 间 和 结束 时 间 来 标志 。Segment 代 表 一 段 时 间 内 源 数 据 的 预计 
算 结 果 。 在 大 部 分 情况 下 (例外 情况 见 第 4 章 “ 流 式 构 建 ”) ， 一 个 segment 的 起 始 时 间 等 于 它 之 前 那个 egment 的 结束 时 
间 ， 同 理 ， 它 的 结束 时 间 等 于 它 后 面 那个 segment 的 起 始 时 间 。 同 一 个 Cube 下 不 同 的 segment 除了 背后 的 源 数 据 不 同 之 外 ， 其 
他 如 结构 定义 、 构 建 过 程 、 优 化 方法 、 存 储 方式 等 都 完全 相同 。 


ZAA 


本 章 将 首先 介绍 如 何 设计 并 创建 能 够 增 量 构建 的 Cube， 然 后 介绍 实际 测试 或 生产 环境 中 触发 增 量 构建 的 方法 ， 最 后 将 会 介 
绍 如 何 处 理由 于 增 量 构建 而 导致 的 Segment 和 碎片， 以 保持 Kylin 的 查询 性 能 。 


31 为 什么 要 增 量 构建 


全 量 构建 可 以 看 作 增 量 构建 的 一 种 特例 : 在 全 量 构建 中 ，Cube 中 只 存在 唯一 的 一 个 Segment， 该 Segment 没 有 分 割 时 间 的 
念 ， 因 此 也 就 没有 起 始 时 间 和 结束 时 间 。 全 量 构 建 和 增 量 构 建 各 有 其 适用 的 场景 ， 用 户 可 以 根据 自己 的 业务 场景 灵活 地 进行 切 
换 。 全 量 构建 和 增 量 构建 的 详细 对 比如 表 3-1 所 示 。 


表 3-1 全 量 构建 和 增 量 构建 的 对 比 


全 量 构建 增 量 构建 
每 次 更 新 时 都 需要 更 新 整个 数据 集 每 次 只 对 需要 更 新 的 时 间 范 围 进行 更 新 ， 因 此 离线 计算 量 相 对 较 小 
查询 时 不 需要 合并 不 同 Segment 的 结果 查询 时 需要 合并 不 同 Segment 的 结果 ， 因 此 查询 性 能 会 受到 影响 
不 需要 后 续 的 Segment 合并 累计 一 定量 的 Segment 之 后 ， 需 要 进行 合并 
适合 小 数据 量 或 全 表 更 新 的 Cube 适合 大 数据 量 的 Cube 


对 于 全 量 构建 来 说 ， 每 当 需要 更 新 Cube 数 据 的 时 候 ， 它 不 会 区 分 历史 数据 和 新 加 入 的 数据 ， 也 就 是 说 ， 在 构建 的 时 候 会 导 
入 并 处 理 所 有 的 原始 数据 。 而 增 量 构建 只 会 导入 新 Segment 指定 的 时 间 区 间 内 的 原始 数据 ， 并 只 对 这 部 分 原始 数据 进行 预计 
创建 Hive 中 间 表 (Create Intermediate Flat Hive 


算 。 为 了 验证 这 个 区 别 ， 可 以 到 Kylin 的 Monitor 页 面 观察 构建 的 第 二 步 
Table) ， 单 击 纸张 形 的 LOG 按 钮 即 可 观察 该 步骤 的 参数 : 


INSERT OVERWRITE TABLE 

kylin intermediate test kylin cube without slr left join desc 20120601000000 2013 
0101000000 SELECT 

TEST KYLIN FACT.CA 

,TEST KYLIN FACT.L 


,TEST CATEGORY GROUPINGS.MET 


META T 
,TEST CATEGORY GROUPINGS.CATEG LVL2 NAME 
,TEST CATEGORY GROUPINGS.CATEG LVL3 NAME 
,TEST KYLIN FACT.LSTG FORMAT NAME 
,TEST KYLIN FACT.SLR SEGMENT CD 


,TEST KYLIN FACT.PRICE 
,TEST KYLIN FACT.ITEM COUNT 
,TEST KYLIN FACT.SELLER ID 
,TEST SITES.SITE NAME 

FROM DEFAULT.TEST KYLIN 


N a 
LEFT JOIN EDW.TEST CAL DT as T 
ON TEST KYLIN FACT.CAL DT - TE 
LEFT JOIN DEFAULT.TEST CATEGORY GROUPINGS as TEST CATEGORY GROUPINGS 


ON TEST KYLIN FACT.LEAF CATEG ID - TEST CATEGORY GROUPINGS.LEAF CATEG ID AND 
TEST KYLIN FACT.LSTG SITE ID - TEST CATEGORY GROUPINGS.SITE ID 
LEFT JOIN EDW.TEST SITES as TEST SITES 


ON TEST KYLIN FACT.LSTG SITE ID - TEST SITES.SITE ID 
LEFT JOIN EDW.TEST SELLER TYPE DIM as TEST SELLER TYPE DIM 


ON TEST KYLIN FACT.SLR SEGMENT CD - TEST SELLER TYPE DIM.SELLER TYPE CD 
WHERE (TEST KYLIN FACT.CAL DT »- '2012-06-01' AND TEST KYLIN FACT.CAL DT « 
'2013-01-01') 


distribute by rand(); 


该 构建 任务 对 应 于 名 为 test_kylin_ cube without slr left join empty 的 Cube 构 建 ， 其 Seg-ment 所 包含 的 时 间 段 为 从 
2012-06-01 (包含 ) 到 2013-01-01 (不 包含 ) ， 可 以 看 到 在 导入 数据 的 Hive 命 令 中 带 入 了 包含 这 两 个 日 期 的 过 滤 条 件 ， 以 此 保 
证 后 续 构 建 的 输入 仪 包含 2012-06-01 到 2013-01-01 这 段 时间 内 的 数据 。 这 样 的 过 滤 能 够 减少 增 量 构建 在 后 续 的 预计 算 中 所 需 
处 理 的 数据 规模 ， 有 利于 减少 集群 的 计算 量 ， 加 速 Ssegment 构 建 的 时 间 。 


其 次 ， 增 量 构建 的 Cube 和 全 量 构建 的 Cube 在 查询 时 也 有 不 同 。 对 于 增 量 构建 的 Cube， 由 于 不 同时 间 的 数据 分 布 在 不 同 的 
segment 之 中 ， 因 此 为 了 获得 完整 的 数据 ， 查 询 引擎 需要 向 存储 引擎 请 求 读 取 各 个 segment 的 数据 。 当 然 ， 查 询 引 警 会 根据 查 
询 中 的 条 件 自 动 跳 过 不 感 兴趣 的 segment。 对 于 全 量 构建 的 Cube， 查 询 引 警 只 需要 向 存储 引擎 访问 单个 egment 所 对 应 的 数 
据 ， 从 存储 层 返回 的 数据 无 需 进行 segment 之 间 的 聚合 ， 但 是 这 也 并 非 意味 着 查询 全 量 构建 的 Cube 不 需要 查询 引擎 做 任何 额外 
的 聚合 ， 为 了 加 强 性 能 ， 单 个 Segment 的 数据 也 有 可 能 被 分 片 存储 到 引 警 的 多 个 分 区 上 (参考 第 6 章 ) ， 从 而 导致 查询 引擎 可 能 
仍然 需要 对 单个 segment 不 同 分 区 的 数据 做 进一步 的 聚合 。 当然， 整体 来 说 ， 增 量 构建 的 Cube 上 的 查询 会 比 全 量 构建 的 做 更 多 
的 运行 时 聚合 ， 而 这 些 运行 时 聚合 都 发 生 在 单 点 的 查询 引擎 之 上 ， 因 此 通常 来 说 增 量 构建 的 Cube 上 的 查询 会 比 全 量 构建 的 Cube 
上 的 查询 要 慢 一 些 。 


可 以 看 到 ,日积月累 ， 增 量 构 建 的 Cube 中 的 Segment 越 来 越 多 ， 根 据 上 一 段 的 分 析 可 以 猜测 到 该 Cube 的 查询 性 能 也 会 越 
来 越 慢 ， 因 为 需要 在 单 点 的 查询 引 警 中 完成 越 来 越 多 的 运行 时 聚合 。 为 了 保持 查询 性 能 ，Cube 的 管理 员 需 要 定期 地 将 某 些 
Segment 合并 在 一 起 ， 或 者 让 Cube 根 据 Segment 保 留 策略 自动 地 淘汰 那些 不 会 再 被 查询 到 的 陈旧 Segment。 关 于 这 部 分 的 详 
细 内 容 会 在 3.4.1 节 中 展开 详细 讨论 。 


最 后 ， 我 们 可 以 得 到 这 样 的 结论 : 对 于 小 数据 量 的 Cube， 或 者 经 常 需要 全 表 更 新 的 Cube， 使 用 全 量 构建 需要 更 少 的 运 维 精 
力 ， 以 少量 的 重复 计算 降低 生产 环境 中 的 维护 复杂 度 。 而 对 于 大 数据 量 的 Cube， 例 如 ， 对 于 一 个 包含 两 年 历史 数据 的 Cube， 如 


果 需 要 每 天 更 新 ， 那 么 每 天 为 了 新 数据 而 去 重复 计算 过 去 两 年 的 数据 就 会 变 得 非常 浪费 ， 在 这 种 情况 下 需要 考虑 使 用 增 量 构建 。 


32 ”设计 增 量 Cube 


3.2.1 设计 增 量 Cube 的 前 提 


并 非 所 有 的 Cube 都 适用 于 增 量 构 建 ，Cube 的 定义 必须 包含 一 个 时 间 维 度 ， 用 来 分 割 不 同 的 Segment， 我 们 将 这 样 的 维度 
称 为 分 割 时 间 列 (Partition Date Column) 。 尽 管 由 于 历史 原因 该 命名 中 存在 “date” 的 字样 ， 但 是 分 割 时 间 列 既 可 以 是 Hive 
中 的 Date 类 型 、 也 可 以 是 Timestamp 类 型 或 String 类 型 。 无 论 是 哪 种 类 型 ，Kylin 都 要 求 用 户 显 式 地 指定 分 割 时 间 列 的 数据 格 
式 ， 例 如 精确 到 年 月 日 的 Date 类 型 (或 者 String 类 型 ) 的 数据 格式 可 能 是 yyyyMMdd 或 yyyy-MM -dd， 如 果 是 精确 到 时 分 秒 的 
Timestamp 类 型 (或 者 String 类 型 ) ， 那 么 数据 格式 可 能 是 YYYY-MM-DD HH: MM : SS。 


在 一 些 场景 中 ， 时 间 由 长 整数 Unix Time 来 表示 ， 由 于 对 该 类 型 的 支持 存在 争议 (详情 可 参见 
https: //issues.apache.org/Jjira/browse/KYLIN-1698) ， 因 此 在 目前 的 版 本 中 并 不 支持 使 用 长 整数 类 型 作为 分 割 时 间 列 。 作 
为 一 种 变通 的 方法 ， 可 以 在 ETL 过 程 中 克服 这 个 问题 。 具 体 来 说 ， 就 是 在 Hive 中 为 包含 长 整数 时 间 列 的 表 创 建 一 个 视图 ， 将 长 整 
数 时 间 列 转化 为 符合 Kylin 规 范 的 任意 类 型 ， 在 后 续 的 Cube 设 计 中 ， 应 使 用 该 视图 而 不 是 原始 的 表 。 


满足 了 设计 增 量 Cube 的 前 提 之 后 ， 在 进行 增 量 构 建 时 ， 将 增 量 部 分 的 起 始 时 间 和 结束 时 间作 为 增 量 构建 请 求 的 一 部 分 提交 
给 Kylin 的 任务 引擎 ， 任 务 引擎 会 根据 起 始 时 间 和 结束 时 间 从 Hive 中 抽取 相应 时 间 的 数据 ， 并 对 这 部 分 数据 做 预计 算 处 理 ， 然 后 
将 预计 算 的 结果 封装 成 为 一 个 新 的 Segment， 并 将 相应 的 信息 保存 到 元 数据 和 存储 引 警 中。 一般 来 说 ， 增 量 部 分 的 起 始 时 间 等 
于 Cube 中 最 后 一 个 segment 的 结束 时 间 。 


3.3 触 友 增 量 构建 


3.3.1 Web GUI 触 友 


在 Web GUI 上 触发 Cube 的 增 量 构建 与 触发 全 量 构建 的 方式 基本 相同 。 在 Web GUI 的 Model 页 面 中 ， 选 中 想 要 增 量 构建 的 
Cube， 单 击 Action 一 Build， 如 图 3-3 所 示 。 


不 同 于 全 量 构建 ， 增 量 构建 的 Cube 会 在 此 时 弹出 对 话 框 让 用 户 选 择 “End Date" (如 图 3-4 所 示 ) ， 目 前 Kylin 要 求 增 量 
segment 的 起 始 时 间 等 于 Cube 中 最 后 一 个 egment 的 结束 时 间 ， 因 此 当 我 们 为 一 个 已 经 有 segment 的 Cube 触 发 增 量 构建 的 时 
|&, "Start Date” 的 值 已 经 被 确定 ， 且 不 能 修改 。 如 果 在 触发 增 量 构建 的 时 候 Cube 中 不 存在 任何 的 Segment， 那 么 “Start 
Date" 的 值 会 被 系统 设置 为 “Partition Start Date" 的 值 (参见 3.2.2 节 ) 。 


Insight Model Monitor 


Name $ Status $ Last Build Time ? Owner Create Time 人 


a 
v 


© test_kylin_cube_with_sIr_empt 2016-07-08 08:29:1 
y 7 GMT-8 


© test kylin cube with sir left j T 2016-07-08 08:36:4 Refresh 


oin empty 0 GMT-8 Merge 


十 十 - 


© test kylin cube without sir lef f 2016-07-08 08:38:5 Disable 
t join empty 5 GMT-8 Clone 


图 3-3 ”触发 增 量 构建 


Start Date (Include) 2022-01-01 00:00:00 


图 3-4 选择 增 量 构建 End Date 


仅 当 Cube 中 不 存在 任何 Segment， 或 者 不 存在 任何 未 完成 的 构建 任务 时 ，Kylin 才 接受 该 Cube 上 新 的 构建 任务 。 未 完成 的 
构建 任务 不 仅 包 含 正在 运行 中 的 构建 任务 ， 还 包括 已 经 出 错 并 处 于 ERROR 状 态 的 构 任 务 。 如 果 存 在 一 个 ERROR 状 态 的 构建 任 
务 ， 那 么 用 户 需要 先 处 理 好 该 构建 任务 ， 然 后 才能 成 功 地 向 Kylin 提 交 新 的 构建 任务 。 处 理 ERROR 状 态 的 构建 任务 的 方式 有 两 
Th: 比较 正常 的 做 法 是 首先 在 Web GUI 或 后 台 的 日 志 中 查找 构建 失败 的 原因 ， 解 决 问题 后 回 到 Monitor 页 面 ， 选 中 失败 的 构建 
任务 ， 单 击 Action 一 Resume， 恢 复 该 构建 任务 的 执行 。 我 们 知道 构建 任务 分 为 多 个 子 步骤 ，Resume 操 作 会 跳 过 之 前 所 有 已 经 
成 功 了 的 子 步骤 ， 直 接 从 第 一 个 失败 的 子 步骤 重新 开始 执行 。 举 例 来 说 ， 如 果 某 次 构建 任务 失败 ， 我 们 在 后 台 Hadoop 的 日 志 
发 现 失 败 的 原因 是 由 于 Mapper 和 Reducer 分 配 的 内 存 过 小 导致 了 内 存 溢出 ， 那 么 我 们 可 以 在 更 新 了 Hadoop 相 关 的 配置 之 后 再 
恢复 失败 的 构建 任务 。 


3.4 fBCubef 


增 量 构建 的 Cube 每 天 都 可 能 会 有 新 的 增 量 。 日 积 月 昧 ， 这 样 的 Cube 中 最 终 可 能 包含 上 百 个 Segment， 这 将 会 导致 查询 性 
能 受到 严重 的 影响 ， 因 为 运行 时 的 查询 引 警 需要 聚合 多 个 Segment 的 结果 才能 返回 正确 的 查询 结果 。 从 存储 引擎 的 角度 来 说 ， 
大 量 的 segment 会 带 来 大 量 的 文件 ， 这 些 文 件 会 充斥 所 提供 的 命名 空间 ， 给 存储 空间 的 多 个 模块 带 来 巨大 的 压力 ， 例 如 
Zookeeper、HDFS Namenode 等 。 因 此 ， 有 必要 采取 措施 控制 Cube 中 Segment 的 数量 。 


另外 ， 有 时候 用 户 场 景 并 不 能 完美 地 符合 增 量 构建 的 要 求 ， 由 于 ETL 过 程 存在 延迟 ， 数 据 可 能 一 直 在 持续 地 更 新 ， 有 时 候 用 
户 不 得 不 在 增 量 更 新 已 经 完成 后 又 回 过 头 来 刷新 过 去 已 经 构建 好 了 的 增 量 segment， 对 于 这 些 问 题 ， 需 要 在 设计 Cube 的 时 候 提 
前 进行 考虑 。 


35. zw 


增 量 构建 是 使 用 Apache Kylin 的 关键 步骤 。 因 为 对 于 大 多 数 使 用 场景 ， 数 据 都 是 日 积 月 累 逐 渐 增 长 的 。 如 何 合理 地 安排 增 
量 构建 ， 保 证 用 户 在 Cube 中 可 以 及 时 查询 到 最 新 的 数据 ， 是 Apache Kylin 运 行 维护 的 日 常 。 第 4 章 将 延续 本 章 的 内 容 ， 继 续 探 
讨 流 式 构建 ， 将 Apache Kylin 的 数据 延迟 缩短 到 分 钟 级 别 。 


第 4 章 ” 流 了 式 构建 


第 3 章 介 绍 的 增 量 构建 ， 可 用 来 满足 业务 的 数据 更 新 需求 。 增 量 构建 和 全 量 构建 一 样 ， 都 需要 从 Hive 中 抽取 数据 ， 在 经 过 若 
干 轮 的 Map Reduce 作 业 之 后 ， 才 能 对 源 数据 进行 预计 算 ， 最 后 将 预计 算 的 结果 适 配 成 存储 引擎 所 需要 的 格式 ， 并 导入 到 存储 引 
擎 中 。 一 般 来 说 ， 增 量 构建 的 数据 量 明显 小 于 全 量 构建 ， 因 此 增 量 构建 的 时 间 少 于 全 量 构建 。 但 是 增 量 构建 仍然 无 法 满足 分 钟 级 
的 实时 数据 更 新 需求 ， 其 中 很 大 一 部 分 原因 是 实时 数据 落地 到 Hive， 再 由 Kylin 触 发 构建 任务 ， 并 从 Hive 中 拉 取 数据 这 个 过 程 就 
需要 花费 大 量 的 时 间 。 另 外 ， 尽 管 它 的 数据 量 少 于 全 量 构建 ， 但 是 增 量 构建 的 子 步骤 和 全 量 构建 的 子 步骤 相同 ， 调 度 的 成 本 也 不 
可 忽略 。 因 此 ， 为 了 满足 分 钟 级 别 的 实时 数据 更 新 需求 ， 我 们 不 得 不 寻求 其 他 的 数据 源 和 构建 引擎 ， 甚 至 还 考虑 过 单独 的 存储 引 
擎 。 流 式 构建 则 是 应 对 实时 数据 更 新 需求 的 解决 方案 。 


本 章 的 屏幕 截图 和 具体 命令 只 适用 于 Apache Kylin v1.5。 从 v1.6 版 本 开始 ， 流 式 构建 有 了 较 大 的 变化 ， 但 基本 设计 仍然 相 
通 ， 不 过 具体 的 操作 和 命令 已 有 所 不 同 ， 请 参考 Apache Kylin 官 网 的 最 新 文档 
4.1 ”为 什么 要 流 式 构建 


实时 数据 更 新 是 一 种 普遍 的 需求 ， 快 速 更 新 的 数据 分 析 能 够 帮助 分 析 师 快速 地 判断 业务 的 变化 趋势 ， 从 而 能 够 在 风险 仍然 可 
控 的 阶段 做 出 决策 。 在 监控 领域 ， 通 常 需要 非常 实时 的 数据 更 新 来 抓 捕 异常 的 数据 特征 ， 这 样 一 来 ， 对 数据 的 延迟 需求 可 能 必须 


是 秒 级 别 甚至 毫秒 级 别 。Kylin 擅 长 的 在 线 多维 分 析 领 域 不 同 于 监控 领域 ， 虽 然 普 遍 存在 准 实时 的 更 新 需求 ， 但 是 分 钟 级 别 的 更 

新 与 秒 级 别 的 更 新 在 业务 决策 、 趋 势 判断 等 方面 的 功能 已 经 十 分 接近 。 市 场 上 也 已 经 存在 其 他 的 秒 级 别 的 在 线 多 维 分 析 产 品 可 供 
选择 ,例如 Druid (http: //druid.io/) ， 但 是 为 了 支持 秒 级 的 更 新 需求 ， 该 类 产品 不 得 不 在 内 存 中 维护 复杂 的 数据 结构 以 接受 
实时 数据 更 新 (例如 Druid 中 的 Incrementallndex) 。 这 种 结构 需要 系统 全 局 地 处 理 该 结构 的 高 可 用 性 和 持久 化 问题 等 ， 这 会 造 
成 系统 易 用 性 的 下 降 。 更 大 的 问题 是 在 内 存 中 维护 所 有 的 数据 会 对 可 处 理 的 数据 量 造成 明显 的 限制 (具体 详情 请 参见 

https: //www.quora.com/What-are-the-differences-between-Druid-and-AWS-Redshift) 。 为 了 明确 自身 的 定位 ， 保 持 
系统 整体 的 简单 易 用 性 ， 我 们 认为 Kylin 瞄 准 分 钟 级 的 更 新 需求 就 已 经 能 够 满足 大 部 分 的 实时 在 线 多 维 分 析 需 求 。 


由 于 Kylin 不 打算 自己 在 内 存 中 维护 数据 结构 以 保障 实时 数据 更 新 ， 因 此 Kylin 本 身 无 需 像 Druid 一 样 处 理 复 杂 的 集群 资源 调 
度 、 容 灾 容 错 、 数 据 扩容 等 问题 。 无 论 是 全 量 构建 、 增 量 构 建 还 是 流 式 处 理 ， 都 有 计算 引擎 的 可 扩展 问题 ， 由 于 自身 并 不 维护 数 
据 ， 因 此 Kylin 的 核心 部 分 可 以 只 关注 预计 算 的 优化 、 查 询 的 优化 等 核心 问题 ， 将 计算 的 扩展 性 委托 给 其 他 的 计算 框架 如 Map 
Reduce、Spark 等 ， 将 存储 的 高 可 用 性 问题 ， 扩 容 问 题 交 给 其 他 的 存储 框架 如 HBase 等 。 换 而 言 之 ，Kylin 可 以 更 好 地 复 用 用 户 
生产 环境 中 已 经 广泛 部 署 的 其 他 组 件 ， 更 好 地 融入 Hadoop、Spark 这 样 的 生态 圈 之 中 。 这 样 不 仅 节省 了 用 户 在 基础 设施 上 的 投 
入 ， 也 节约 了 运 维 的 管理 成 本 ， 最 主要 的 是 使 得 Kylin 产 品 本 身 非常 灵活 ， 而 且 容易 部 署 。 


4.22 ”准备 流 式 数据 


4.2.1 数据 格式 


由 于 实时 数据 更 新 频繁 ， 因 此 对 于 流 式 构建 ， 不 再 要 求 数据 必须 提前 落地 到 Hive 之 中 ， 因 为 那样 做 开销 过 大 。Kylin 假 设 在 
流 式 构建 中 ， 数 据 是 以 消息 流 的 形式 传递 给 流 式 构 建 引 警 的 。 消 息 流 中 的 每 条 消息 需要 包含 如 下 信息 。 


所 有 的 维度 信息 。 


所 有 的 度量 信息 。 


. 业务 时 间 玲 。 


在 消息 流 中 ， 每 条 消息 中 的 数据 结构 应 该 相同 ， 并 且 可 以 用 同一 个 分 析 器 实例 将 每 条 消息 中 的 维度 、 度 量 及 时 间 戳 信息 提取 
出 来 。 目 前 默认 的 分 析 器 为 org.apache.kylin.source.kafka.TimedjJsonStreamParser， 该 分 析 器 假设 每 条 消息 为 一 个 单独 的 
JSON， 所 有 的 信息 都 以 键 值 对 的 形式 保存 在 该 JJON 之 中 。 它 还 假设 键 值 对 中 存在 一 个 特殊 的 键 值 代表 消息 的 业务 时 间 ， 该 键 
值 称 为 业务 时 间 戳 。 该 键 值 的 键 名 是 可 配 的 ， 其 值 为 长 整数 的 Unix Time 时 间 类 型 。 


业务 时 间 戳 的 粒度 对 于 在 线 多 维 分 析 而 言 可 能 过 高 ， 无 法 在 时 间 维 度 上 完成 深度 的 聚合 。 因 此 ，Kylin 允 许 用 户 挑选 一 些 从 
业务 时 间 戳 上 衍生 出 来 的 时 间 维度 (Derived Time Dimension) ， 具 体 来 说 有 如 下 几 种 。 


- minute start: 业务 时 间 改 所 在 的 分 钟 起 始 时 间 ， 类 型 为 Timestamp (yyyy-MM-dd HH: mm: ss) o 
hour start: 业务 时 间 玲 所 在 的 小 时 起 始 时 间 ， 类 型 为 Timestamp (yyyy-MM-dd HH: mm: ss) o 
: day start: 业务 时 间 玲 所 在 的 天 起 始 时 间 ， 类 型 为 Date (yyyy-MM-dd) o 


- week_start: 业务 时 间 惟 所 在 的 周 起 始 时 间 ， 类 型 为 Date (yyyy-MM-dd) o 


- month start: 业务 时 间 蕉 所 在 的 月 起 始 时 间 ， 类 型 为 Date (yyyy-MM-dd) 。 
.duattet_statt: 业务 时 间 惟 所 在 的 季度 起 始 时 间 ， 类 型 为 Date (yyyy-MM-dd) 。 
- year start: 业务 时 间 惟 所 在 的 年 起 始 时 间 ， 类 型 为 Date (yyyy-MM-dd) 。 


这 些 衍生 时 间 维 度 都 是 可 选 的 ， 如 果 用 户 选择 了 这 些 衍生 维度 ， 那 么 在 对 应 的 时 间 粒 度 上 进行 聚合 时 就 能 够 获得 更 好 的 查询 
性 能 ,一 般 来 说 不 推荐 把 原始 的 业务 时 间 礁 选择 成 一 个 单独 的 维度 ， 因 为 该 列 的 基数 一 般 都 是 很 大 的 。 
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4.3.1 创建 Model 


和 增 量 构建 的 流程 一 样 ， 我 们 也 要 为 流 式 构建 的 Cube 创 建 数据 模型 (Model) 。 关 于 创建 数据 模型 的 一 些 细节 内 容 已 经 在 
第 2 章 中 进行 过 介绍 ， 在 此 不 再 歼 述 ， 这 里 只 介绍 与 流 式 构建 相关 的 配置 项 。 


在 创建 Model 对 话 框 的 第 三 步 (如 图 4-7 所 示 , 创建 Model 的 具体 步骤 详 见 2.3 节 ) 维度 选择 时 ,我 们 既 可 以 选择 普通 的 维 
度 ， 又 可 以 选择 衍生 的 时 间 维度 。 注 意 ， 一 般 不 推荐 直接 选择 业务 时 间 戳 作为 维度 ， 因 为 业务 时 间 戳 的 精度 往往 是 精确 到 秒 级 甚 
至 是 毫秒 级 的 ， 使 用 它 作 为 一 个 维度 失去 了 聚合 的 意义 ， 也 会 让 整个 Cube 的 体积 变 得 非常 庞大 。 


Dimensions 


ID Table Name Columns 


1 DEFAULTSTREAMIN | CATEGORY x || DEVICE x || CURRENCY x || COUNTRY X || WEEK START x || DAY_START x | 
G SALES TABLE 


| MINUTE START X || HOUR START X | 


图 4-7 创建 Model 对 话 框 的 第 三 步 ， 选 择 维度 


在 创建 Model 对 话 框 的 第 五 步 设置 中 ， 一 般 选 择 最 小 粒度 的 衍生 时 间 维 度 作为 分 割 时 间 列 ， 在 这 里 我 们 选择 
MINUTE_START， 它 的 数据 格式 前 文 也 已 经 介绍 过 ， 即 yyyy-MM-dd HH: mm: ss。 有 了 分 割 时 间 列 ， 就 可 以 对 Cube 进 行 分 
钟 级 的 流 式 构建 了 ， 其 余 设置 均 保持 默认 状态 (如 图 4-8 所 示 ) 。 


Partition 


Partition Date Column 6 | DEFAULT.STREAMING. SALES. TABLE.MINUTE. START 


Date Format yyyy-MM-dd HH:mm:ss 


Has a separate "time of the day" | [m] 


column ? & 


图 4-8 创建 Model 的 第 五 步 ， 配 置 时 间 分 割 列 


最 终 ， 单 击 “Save” 按 钮 ， 保 存 所 创建 的 数据 模型 。 当 看 到 成 功 提示 时 ， 数 据 模型 就 创建 成 功 了 。 


4.4 法 式 构建 原理 


由 于 分 布 式 网 络 人 存在 延迟 等 因素 ， 因 此 从 消息 队列 中 取出 的 消息 并 不 一 定 必须 要 按照 业务 时 间 升 序 排列 。 事 实 上 ，Kylin 假 
设 消息 队列 中 的 所 有 消息 均 按照 业务 时 间 呈 基本 递增 的 趋势 ， 图 4-12 描 绘 了 基本 的 情况 ， 其 中 x 轴 代表 消息 的 序号 ，y 轴 代表 消 
息 中 的 业务 时 间 。 


图 4-12 ”消息 的 时 序 情况 


流 式 构 建 需要 达到 分 钟 级 的 数据 更 新 频率 ，Kylin 的 做 法 是 每 隔 数 分 钟 就 启动 一 次 微 构建 ， 用 于 处 理 最 新 的 一 批 数据 。 这 种 
做 法 的 理念 有 一 些 类 似 于 Spark Streaming， 它 们 也 是 将 流 数据 视 作 一 种 特殊 的 微 批 次 来 处 理 的 。 由 于 消息 可 能 存在 延迟 ， 因 此 
不 能 为 某 一 时 刻 刚刚 过 去 的 那 几 分 钟 立刻 构建 微 批 次 。 举 例 来 说 ， 如 果 在 每 个 微 构建 中 要 处 理 5 分 钟 的 增 量 数 据 ， 假 设 消息 队列 
中 的 消息 最 多 可 能 有 10 分 钟 的 延迟 (对 应 于 4.2.3 节 中 的 “Margin”) ， 那 么 就 不 能 在 1: 00 的 时 候 立 刻 尝试 去 构建 0: 55 到 1: 
00 这 5 分 钟 的 数据 ， 因 为 这 部 分 数据 的 消息 最 迟 可 能 在 1: 10 分 才 会 到 齐 ， 否 则 构建 出 来 的 segment 就 存在 很 大 的 遗漏 数据 的 风 
险 。 此 时 ， 需 要 像 增 量 构建 中 提 到 的 “数据 持续 更 新 ”的 情形 一 样 ， 对 过 往 的 segment 进行 刷新 操作 。 但 是 目前 流 式 构 建 并 不 
支持 Segment 刷 新 操作 ， 所 以 ， 最 早 只 能 在 1: 10 开 始 构建 0: 55 到 1: 00 这 部 分 的 数据 。 也 就 是 说 即使 构建 在 瞬间 完成 ， 最 早 
也 得 在 1: 10 才 能 在 查询 端 看 到 0: 55 的 数据 。 这 中 间 的 延迟 我 们 称 之 为 DELAY， 它 等 于 每 个 微 构建 批 次 的 时 间 (INTERVAL) 
加 上 消息 最 长 可 能 延迟 的 时 间 (MARGIN) ， 在 上 面 的 示例 中 ，DELAY 为 10 分 钟 +5 分 钟 =15 分 钟 。 


弄 清楚 了 延迟 的 概念 ， 接 下 来 我 们 假设 已 经 到 了 1: 10 分 ， 现 在 想 要 开始 构建 0: 55 到 1: 00 这 段 时 间 的 segment。 我 们 需 
要 的 输入 是 所 有 业务 时 间 戳 处 于 这 个 时 间 范 围 内 的 消息 ， 但 是 由 于 消息 队列 并 不 是 按照 时 间 顺 序 来 排序 的 ， 因 此 无 法 精确 地 知道 
应 该 获取 消息 队列 中 哪 部 分 的 消息 。 消 息 队 列 可 能 存储 着 过 去 相当 长 一 段 时 间 内 的 数据 ， 如 果 每 次 流 式 ;构建 都 去 扫描 整个 消息 队 
列 中 的 所 有 消息 显然 不 符合 实际 。 


为 了 尽量 不 丢失 数据 ， 这 里 采用 了 一 种 变种 的 二 分 查找 法 来 定位 所 需要 读 取 的 消息 队列 的 起 始 序 号 和 结束 序号 。 假 设 现 在 需 
要 获取 处 于 t1 和 t2 之 间 的 所 有 消息 ， 如 果 使 用 简单 的 二 分 查找 法 ， 那 么 定位 t2 的 时 候 可 能 就 会 找到 图 4-12 中 左 侧 的 红 点 ， 这 样 一 
来 ， 两 个 红 点 之 间 处 于 t1 和 t2 之 间 的 那 部 分 数据 就 会 被 遗失 。 在 变种 二 分 查找 法 中 ， 会 寻找 业务 时 间 戳 等 于 t1-margin 和 
t2+margin 这 两 个 时 间 点 的 消息 的 序列 号 ， 然 后 读 取 这 两 个 消息 序列 号 之 间 的 所 有 消息 。 通 常 ， 只 要 数据 能 够 保证 在 Margin 时 
间 内 到 达 ， 流 式 构 建 就 不 会 丢失 数据 。 但 是 ， 通 常情 况 下 数据 产生 方 无 法 保证 100% 的 消息 都 会 在 Margin 时 间 内 到 达 ， 因 此 ， 理 


论 上 目前 的 流 式 构建 仍然 存在 丢失 数据 的 风险 。 因 此 ， 合 理 地 设置 Margin 显 得 非常 重要 ， 如 果 Margin 设 置 得 过 小 ， 那 么 数据 丢 
失 的 可 能 性 就 会 大 大 增加 。 但 是 如 果 Margin 过 大 ， 又 会 导致 DELAY 增 加 ， 那 样 在 客户 端 就 会 明显 感觉 到 数据 的 Time to Market 
延迟 增加 。 


流 式 构 建 有 数据 量 小 、 速 度 要 求 高 的 特点 ， 前 文 也 提 到 了 流 式 构建 区 别 于 全 量 构建 和 增 量 构建 ， 不 从 Hive 中 获取 数据 ， 
此 ， 不 能 再 沿用 全 量 构建 和 增 量 构建 中 的 构建 引擎 。 作 为 流 式 构建 的 一 个 初级 版 本 ， 目 前 提供 了 一 个 独立 进程 的 内 存 流 式 构 建 引 
擎 。 它 的 工作 方式 如 图 4-13 所 示 。 调 度 器 每 隔 一 段 时 间 (INTERVAL) 就 触发 流 式 构建 引擎 开始 工作 ， 目 的 是 构建 一 个 新 的 
Segment。 在 局 动 后 ， 流 式 构建 引擎 会 按照 本 节 中 所 描述 的 方法 ， 从 消息 队列 中 提取 出 一 部 分 的 消息 。 这 些 消息 中 有 一 些 并 不 
属于 当前 工作 的 Segment， 因 此 需要 一 个 过 滤器 将 不 需要 的 消息 进行 过 滤 。 随 后 进入 深层 次 的 预计 算 中 ， 流 式 构建 引擎 根据 配 
置 好 的 消息 分 析 器 ， 从 每 个 消息 中 提取 出 有 用 的 维度 和 度量 ， 并 结合 配置 从 业务 时 间 戳 上 衍生 计算 出 所 有 需要 的 衍生 时 间 维度 。 
这 些 数据 将 按照 Cube 的 设计 被 预计 算 ， 结 果 会 被 封装 成 一 个 新 的 Segment 存 到 存储 引 苟 中。 
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A replayable message queue roughly sorted by timestamp 
图 4-13” 流 式 构 建 引擎 工作 过 程 
4.5 ”触发 流 式 构 建 


4.5.1 RAEE 


Kylin 目 前 暂时 不 支持 从 Web GUI 上 触发 流 式 构建 。 为 了 触发 一 次 流 式 构建 ， 用 户 需 要 在 一 台 能 够 访问 Kafka 集 群 和 存储 引 
擎 的 机 器 上 执行 以 下 的 命令 : 


A 


SKYLIN HOME/bin/streaming build.sh CUBE NAME INTERVAL DELAY 
其 中 的 参数 及 说 明 分 别 如 下 。 

: CUBE, NAME: 代表 所 需 流 式 构建 的 Cube。 

INTERVAL: 代表 此 次 流 式 构 建 的 时 间 长 度 。 

DEALY: 代表 构建 多 久之 前 的 数据 ， 一 般 来 说 至 少 要 设置 为 INTERVAL+MARGIN。 


举例 来 说 ， 假 设 STREAMING_CUBE 是 一 个 流 式 构建 的 Cube， 每 隔 5 分 钟 构建 一 次 ， 而 且 它 的 Kafka 数 据 源 的 Margin 是 10 
分 钟 ， 那 么 我 们 每 隔 5 分 钟 需要 调用 如 下 命令 : 


SKYLIN HOME/bin/streaming build.sh STREAMING CUBE 300000 900000 
streaming started name: STREAMING CUBE id: 1462471500000 1462471800000 


构建 任务 的 日 志保 存在 $KYLIN_HOME/logs 目 录 下 ， 以 JOB 1D 命 名， 如 
streaming STREAMING CUBE 1462471500000 1462471800000.Ilog。 待 任务 完成 之 后 ， 可 以 在 Monitor 页 面 查看 执行 结 
果 。 


任务 执行 成 功 之 后 ， 需 要 手动 启用 该 Cube。 即 在 Cube 列 表 中 找到 该 Cube， 单 击 右 侧 Actions 按 钮 ， 并 选择 Enable。 该 操 
作 只 需要 执行 一 次 ， 在 Enable 之 后 ， 用 户 就 可 以 像 查询 普通 的 Cube 一 样 ， 在 Web GUI 上 或 使 用 查询 Rest APl 进 行 SQL 查询 了 。 
查询 的 过 程 和 普通 的 增 量 构建 是 一 样 的 ， 用 户 只 需要 根据 左 侧 列 出 的 表 和 人 列 的 信息 并 结合 Cube 上 维度 和 度量 的 定义 编写 SQL 语 
句 即 可 。 


这 里 给 出 一 个 SQL 语句 的 例子 ， 用 户 可 以 自行 在 SQL 输入 框 中 进行 执行 和 测试 : 


select minute start, count(*), sum(amount), sum(gty) from streaming sales table 


group by minute start 
以 下 是 执行 的 结果 ， 如 图 4-14 所 示 。 


esults (5) 


Drag a column header here and drop it to group by that column. 


MINUTE START' EXPR$1 才 EXPR$2 7 EXPR$3 
2016-05-05 18:... 30 1655.3393 142 
2016-05-05 18:... 30 1560.6555 127 
2016-05-05 18:... 30 1309.1235 108 
2016-05-05 18:.… | 30 1313.4346 147 


2016-05-05 18:... | 30 1457.2453 125 


图 4-14 ” 流 式 构建 Cube 的 查询 结 


46 小 结 


总 的 来 说 ， 目 前 的 流 式 构建 基于 增 量 构建 的 整体 框架 ， 使 用 了 一 个 特殊 的 流 式 构建 引擎 ， 可 从 消息 队列 中 迅速 地 获取 数据 ， 
并 把 源 数据 预计 算 成 为 Negment。 流 式 构 建 和 增 量 构建 大 体 相同 ， 主 要 区 别 之 处 在 于 数据 源 不 同 ， 前 者 的 数据 源 是 Kafka 这 样 的 
消息 队列 ， 而 后 者 的 数据 源 是 Hive 这 样 的 数据 仓库 。 另 外 一 个 不 同 之 处 在 于 ， 增 量 构建 是 由 MapReduce 作 业 来 产生 Cube 的 
HDFS 数 据 文件 的 ， 它 会 使 用 MapReduce 将 HDFS 数 据 文件 转化 为 符合 存储 引擎 (HBase) 的 数据 格式 (HFile) ， 然 而 在 流 式 
构建 中 ，HDFS 数 据 文件 并 不 是 由 MapReduce 产 生 的， 而 是 由 一 个 单 进程 的 流 式 构建 引擎 独立 完成 的 。 因 此 当 数 据 量变 大 的 时 
候 ， 整 个 系统 的 出 错 频 率 可 能 会 增加 。 


目前 ， 流 式 构建 引擎 的 设计 还 比较 初级 。 当 单个 微 构建 的 数据 量 过 大 时 ， 现 有 的 单 进程 流 式 构 建 引擎 可 能 会 因为 内 存 溢 出 而 
骨 省 。 同 时 ， 出 错 恢复 的 过 程 也 会 相对 繁琐 ， 可 能 需要 在 运 维 上 花费 更 多 的 精力 。 另 外 目前 版 本 的 流 式 构建 也 不 能 提供 对 消息 处 
理 Exact-Once 的 语义 ， 如 果 数 据 的 延迟 超过 了 预计 的 Margin， 那 么 可 能 会 存在 丢失 数据 的 风险 。 这 些 问 题 将 在 今后 的 版 本 中 尽 
量 得 到 逐个 解决 ， 敬 请 期 待 。 


第 5 章 ”查询 和 可 视 化 


基于 之 前 的 讲解 ， 相 信 读 者 已 经 创建 了 自己 的 模型 、 立 方 体 ， 并 且 顺 利 对 其 进行 构建 。 在 构建 完成 之 后 ， 我 们 再 回 到 最 初 的 
目标 一 一 查询 数据 ， 这 里 首先 会 讲解 Kylin 自 己 的 查询 页 面 ， 再 介绍 如 何 通过 Rest API、JDBC、ODBC 或 其 他 工具 来 访问 Kylin。 
希望 本 章 的 内 容 能 够 帮助 读者 了 解 Kylin 的 查询 和 可 视 化 页 面 ， 更 全 面 地 认识 如 何 通 过 编程 接口 开发 基于 Kylin 的 可 视 化 界面 。 


5.1 Web GUI 


Apache Kylin 的 Insight 页 面 即 为 查询 页 面 (如 图 5-1 所 示 ) ， 单 击 该 页 面 ， 左 边 侧 栏 会 将 所 有 可 以 查询 的 表 列 出 来 ， 当 然 ， 
这 些 表 需 要 在 Cube 构 建 好 以 后 才 会 显示 出 来 。 


Kylin Insight ©Model Monitor System 


图 5-1 选择 Insipght 页 d 


5.2 Rest API 


前 面 说 过 Kylin 查 询 页 面 主要 是 基于 一 个 查询 Rest AP1， 这 里 将 详细 介绍 应 该 如 何 使 用 该 AP1， 读 者 了 解 后 便 可 以 基于 该 APl 


在 各 种 场景 下 灵活 获取 Apache Kylin 的 数据 了 。 


5.3 ODBC 


Apache Kylin 提 供 了 32 位 和 64 位 两 种 ODBC 驱 动 ， 支 持 ODBC 的 应 用 可 以 基于 该 驱动 访问 Kylin。 该 驱动 程序 目前 只 提供 
Windows 版 本 ， 在 Tableau 和 Microsoft Excel 上 已 经 过 充分 的 测试 。 


在 安装 KylinODBC 之 前 ， 需 要 先 安装 Microsoft Visual C++2012Redistributable， 其 在 Kylin 的 官网 上 可 以 下 载 。 此 外 ， 
为 ODBC 需 要 从 Rest API 获 取 数 据 ， 所 以 在 使 用 之 前 需要 确保 你 有 正在 运行 的 Apache Kylin 服 务 ， 有 可 以 访问 的 Rest APIO. 
最 后 ， 如 果 以 前 安装 过 Apache Kylin ODBC3UXz/, 382 3888/5508 E RA. 


到 Apache Kylin 官 网 下 载 ODBC 驱 动 ， 上 面 分 别提 供 了 KylinODBCDriver (x86) .exe 和 KylinODBCDriver (x64) .exe， 供 
32 位 和 64 位 的 操作 系统 使 用 。 


安装 好 驱动 后 ， 需 要 继续 配置 DSN ， 下 面 分 步 介绍 如 何 配置 DSN。 

第 一 步 ， 打 开 ODBC Data Source Administrator， 然 后 安装 驱动 ， 如 图 5-8 所 示 。 这 里 又 涉及 如 下 两 种 情况 : 
安装 32 位 驱动 时 ， 对 应 的 打开 位 置 为 C: \Windows\SysWOW64\odbcad32.exe。 

安装 64 位 驱动 时 ， 依 次 打开 Windows 的 控制 面板 一 管理 工具 一 数据 源 (ODBC) 。 


第 二 步 ， 打开“System DSN” , $h “Add” ， 找 到 KylinODBCDriver 这 个 选项 ， 单 击 “Finish” 继续 下 一 步 。 如 图 5-9 所 
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图 5-8 打开 ODBC Data Source Administrator 
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图 5-9 ”利用 KylinODBCDrivet 创 建新 的 Data Source 


第 三 步 ， 在 弹出 的 对 话 框 中 ， 填 上 对 应 的 选项 ， 服 务 器 地 址 和 端口 分 别 为 对 应 Rest API 的 IP 和 端口 ， 如 图 5-10 所 示 。 注 意图 
示 中 的 端口 号 为 443， 是 启用 了 HTTPSs 协 议 的 一 种 情况 。 对 于 初次 使 用 Apache Kylin 的 用 户 ， 默 认 的 Rest API 服 务 端口 应 该 为 
7070。 


第 四 步 ， 单 击 “Done” 按钮 ， 在 系统 DSN 中 就 可 以 看 到 新 建 的 DSN 了 ， 如 图 5-11 所 示 ， 然 后 就 可 以 使 用 了 。 


127.0.0.1 


443 


图 5-10 ”填写 Rest API 服 务 器 和 端口 


An ODBC System data source stores information about how to connect to 
the indicated data provider. A System data source is visible to all users 
on this machine, including NT services. 


图 5-11 添加 DSN 完 成 


5.4 JDBC 


Kylin 也 为 用 户 提供 了 JDBC 驱 动 ， 用 户 通过 本 节 可 以 了 解 如 何 正确 使 用 Kylin 提 供 的 JDBC 驱 动 包 。 本 节 会 对 JDBC 的 认证 方 
式 ， 以 及 URL 的 格式 进行 说 明 ， 同 时 通过 示例 代码 直观 地 展示 如 何 基 于 Statement 和 PreparedStatement 查 询 Kylin 的 数据 ， 读 
者 在 自己 的 环境 中 修改 对 应 的 URL 及 表 名 信息 就 可 以 直接 运行 示例 代码 了 。 


5.5 ”通过 Tableau 访 问 Kylin 


Tableau 是 一 款 应 用 比较 广泛 的 商业 智能 工具 软件 ， 有 着 很 好 的 交互 体验 ， 可 基于 拖 忠 式 生 成 各 种 可 视 化 图 表 ， 相 信 很 多 读 
者 已 经 了 解 或 使 用 过 该 产品 。 本 节 会 讲解 如 何 使 用 Tableau 访 问 Apache Kylin 的 数据 。 基 于 Apache Kylin 提 供 的 ODBC 驱 
动 ，Tableau 可 以 很 好 地 对 接 大 数据 ， 让 用 户 以 更 友好 的 方式 对 大 数据 进行 交互 式 的 分 析 。 


本 文 基于 Tableau9.1 版 本 讲解 ， 在 使 用 Tableau 之 前 ， 请 确保 您 已 经 安装 了 ODBC 驱 动 。 


5.6 _ Zeppelin 集成 


Apache Zeppelin 是 一 个 开源 的 数据 分 析 平 台 ， 是 Apache 的 顶级 项 目 。Zeppelin 后 端 以 插件 形式 支持 多 种 数据 处 理 引擎， 
如 Spark、Flink、Lens 等 ， 同 时 还 提供 了 Notebook 式 的 UI 进 行 可 视 化 相关 的 操作 。 为 此 ，Apache Kylin 开 发 了 对 应 的 
Zeppelin 模 块 ， 现 在 已 经 合并 到 Zeppelin 主 分 支 中 ， 在 Zeppelin0.5.6 及 后 续 版 本 中 都 可 以 对 接 使 用 Kylin ， 从 而 实现 通过 
Zeppelin 访 问 Kylin 的 数据 。 


57 放生 


Apache Kylin 提 供 了 灵活 的 前 端 连接 方式 ， 包 括 Rest API、JDBC 和 ODBC。 用 户 可 以 根据 需要 使 用 已 有 的 BI 工 具 (比如 
Tableau) 查询 Apache Kylin， 也 可 以 开发 定制 的 应 用 程序 ， 通 过 这 些 API 访 问 Apache Kylin, 


此 外 通过 Rest AP1， 用 户 还 可 以 读 取 元 数据 ， 触 发 Cube 构 建 ， 查 询 构建 进度 ， 甚 至 实现 自动 创建 Cube 等 高 级 功能 。 有 兴趣 
的 读者 可 以 参考 http: //kylin.apache.org/docs15/howto/howto use restapi.html, 


第 6 章 Cube 优 化 


Apache Kylin 的 核心 思想 是 根据 用 户 的 数据 模型 和 查询 样式 对 数据 进行 预计 算 ， 并 在 查询 时 直接 利用 预计 算 结果 返回 查询 


包括 维度 、 度 量 、 分 割 时 间 列 等 基本 信息 ， 也 包括 用 户 通过 Cube 优 化 工具 赋予 的 额外 的 模型 信息 。 例 如 ， 层 级 (Hierarchy) 是 
一 种 用 来 描述 若干 个 维度 之 间 存 在 层级 关系 的 优化 工具 ， 提 供 层 级 信息 有 助 于 帮助 预计 算 跳 过 多 余 的 预计 算 ， 从 而 减少 预计 算 的 
工作 量 ， 并 且 最 终 减 少 人 存储 引 警 所 需要 存储 的 Cube 数 据 大 小 。 数 据 模 型 是 数据 固有 的 属性 ， 除 此 之 外 ， 查 询 的 样式 如 果 相 对 固 
定 ， 也 可 以 用 来 帮助 Cube 的 优化 。 例 如 ， 如 果 我 们 知道 客户 端的 查询 总 是 会 带 有 某 个 维度 上 的 过 滤 (Filter) 条 件 ， 或 者 总 是 会 
按照 这 个 维度 进行 聚合 (Group By) ， 那 么 所 有 的 不 带 这 个 维度 的 场景 下 的 预计 算 都 可 以 被 跳 过 ， 因 为 即使 为 这 些 场景 进行 了 
预计 算 ， 这 些 预计 算 结果 也 从 来 不 会 被 用 到 |。 


总 的 来 说 ， 在 构建 Cube 之 前 ，Cube 的 优化 手段 提供 了 更 多 与 数据 模型 或 查询 样式 相关 的 信息 ， 用 于 指导 构建 出 体积 更 小 、 
查询 速度 更 快 的 Cube。 可 以 看 到 Cube 的 优化 目的 始终 有 两 个 : 空间 优化 和 查询 时 间 优化 。 


6.1 Cuboid 齐 校 优化 


6.1.1 :EJEBSiHSU 


从 之 前 章节 的 介绍 可 以 知道 ， 在 没有 采取 任何 优化 措施 的 情况 下 ，Kylin 会 对 每 一 种 维度 的 组 合 进行 预计 算 ， 每 种 维度 的 组 
合 的 预计 算 结 果 被 称 为 Cuboid。 假 设 有 4 个 维度 ， 结 合 简单 的 数学 知识 ， 我 们 可 能 最 终 会 有 24=16 个 Cuboid 需 要 计算 。 


但 在 现实 情况 中 ， 用 户 的 维度 数量 一 般 远 远大 于 4 个 。 假 设 用 户 有 10 个 维度 ， 那 么 没有 经 过 任何 优化 的 Cube 就 会 存在 
210=1024 个 Cuboid; 而 如 果 用 户 有 20 个 维度 ， 那 么 Cube 中 总 共 会 存在 220=1048576 个 Cuboid。 虽 然 每 个 Cuboid 的 大 小 存在 
很 大 的 差异 ， 但 是 单单 想到 Cuboid 的 数量 就 足以 让 人 想象 到 这 样 的 Cube 对 构建 引擎 、 存 储 引 警 来 说 压力 有 多 么 巨大 。 因 此 ,在 
构建 维度 数量 较 多 的 Cube 时 ， 尤 其 要 注意 Cube 的 剪 校 优化 。 


6.2” 筋 术 优化 的 工具 


6.2.1. 使 用 衍生 维度 


首先 让 我 们 观察 以 下 这 个 维度 表 (Lookup Table) ， 如 图 6-3 所 示 。 


? CAL, DT DATE 
à YEAR. BEG DT DATE 
© QTR. BEG. DT DATE 
O MONTH BEG. DT DATE 
© WEEK BEG. DT DATE 
à YEAR. END. DT VARCHAR(255) 
© QTR, END. DT VARCHAR(255) 
O MONTH. END. DT VARCHAR(255) 
© WEEK END. DT VARCHAR(255) 


© CAL, DT. NAME VARCHAR(255) 
© CAL, DT. DESC VARCHAR(255) 
© CAL, DT. SHORT. NAME VARCHAR(255) 
© CRE. DATE VARCHAR(255) 
© CRE. USER VARCHAR(255) 
à UPD. DATE VARCHAR(255) 


UPD USER VARCHAR(255) 
Inde xes 


PRIMARY 


图 6-3 一 个 维度 表 


这 是 一 个 常见 的 时 间 维 度 表 ， 里 面 充 斥 着 用 途 各 异 的 时 间 维 度 ， 例 如 每 个 日 期 所 处 的 星期 、 每 个 日 期 所 处 的 月 份 等 。 这 些 维 
度 可 以 被 分 析 师 灵活 地 用 来 进行 各 个 时 间 粒 度 上 的 聚合 分 析 ， 而 不 需要 进行 额外 的 上 卷 (Roll Up) 操作 。 但 是 为 了 这 个 目的 一 
下 子 引 入 这 么 多 个 维度 ， 导 致 Cube 中 总 共 的 Cuboid 数 量 呈 现 爆 炸 式 的 增长 往往 是 得 不 偿 失 的 ， 所 以 在 维度 中 只 放 入 了 这 个 维度 
表 的 主键 (在 底层 实现 中 ， 我 们 更 偏向 使 用 事实 表 上 的 外 键 ， 因 为 在 left joint 的 情况 下 事实 表 外 键 是 维度 表 主 键 的 超 集 ) ， 也 就 
是 只 物化 按 日 聚合 的 Cuboid。 当 用 户 需要 以 更 高 的 粒度 (比如 按 周 、 按 月 ) 来 聚合 时 ， 如 果 在 查询 时 获取 按 日 聚合 的 Cuboid 数 
据 ， 并 在 查询 引擎 中 实时 地 进行 上 卷 操 作 ， 那 么 就 达到 了 使 用 牺牲 一 部 分 运行 时 性 能 来 节省 Cube 空 间 占 用 的 目的 。 


Kylin 将 这 样 的 理念 包装 成 为 了 一 个 简单 的 优化 工具 一 一 衍生 维度 。 衍 生 维 度 用 于 在 有 效 维度 内 将 维度 表 上 的 非 主键 维度 排 
除 掉 ， 并 使 用 维度 表 的 主键 (其 实 是 事实 表 上 相应 的 外 键 ) 来 替代 它们 。Kylin 会 在 底层 记录 维度 表 主 键 与 维度 表 其 他 维度 之 间 
的 映射 关系 ， 以 便 在 查询 时 能 够 动态 地 将 维度 表 的 主键 “翻译 ”成 这 些 非 主键 维度 ， 并 进行 实时 聚合 。 虽 然 听 起 来 有 些 复 杂 ， 但 
是 使 用 起 来 其 实 非 常 简单 ， 在 创建 Cube 的 Cube designer 的 第 二 步 ， 即 添加 维度 的 时 候 ， 要 单 击 “Add Dimension” 中 的 
Derived 而 非 Normal， 如 图 6-4 所 示 。 


Cube Designer 


Cube Info Dimensions Measures 


+ Add Dimension v Auto Generator 


| | 


Normal 
I Table Name 


图 6-4 创建 维度 


系统 会 弹出 新 的 对 话 框 让 用 户 填 写 这 批 衍生 维度 的 细节 ， 一 批 衍生 维度 对 应 一 个 需要 做 衍生 维度 处 理 的 维度 表 。 在 这 里 首先 
为 本 批 衍生 维度 命名 ， 例 如 “derived_date” ， 然 后 在 下 面 选择 相应 的 维度 表 ， 并 且 选 择 维度 表 上 的 非 主键 维度 (如 图 6-5 所 
示 ) 。 如 果 维 度 表 上 的 某 个 非 主键 维度 没有 通过 “+ New Derived” 选 中 ， 那 么 在 查询 时 就 不 能 包含 它 ， 因 为 系统 不 会 保存 维度 
表 主 键 (CAL DT) 与 这 个 维度 之 间 的 映射 关系 。 例 如 ， 假 设 没有 选择 QTR_BEG_DT， 那 么 带 有 QTR_BEG_DT 的 查询 就 会 失败 。 


Add Dimension EENE: 


Name drived date 


Table Name | DEFAULT.KYLIN. CAL. DT. m Derived dimension only 
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+ New Derived 


图 6-5 添加 衍生 维度 


选中 的 衍生 维度 在 Cube 中 并 没有 直接 存在 ， 事 实 上 如 果 我 们 前 往 Cube Designer 的 Advanced Setting， 在 Aggregation 
Groups 和 Rowkeys 部 分 完全 看 不 到 这 些 衍生 维度 ， 我 们 甚至 还 会 找 不 到 这 个 维度 表 KYLIN_CAL_DT 的 主键 ， 因 为 就 如 之 前 所 描 
述 的 ， 我 们 实际 上 都 是 在 用 事实 表 上 的 外 键 作为 这 些 衍生 维度 背后 真正 有 效 的 维度 ， 在 前 面 的 例子 中 ， 事 实 表 与 KYLIN_CAL DT 
是 通过 以 下 的 方式 来 连接 的 : 


Join Condition: 
DEFAULT.KYLIN SALES.PART DT - DEFAULT. 
KYLIN CAL DT.CAL DT 


因此 在 Advanced Setting 的 Rowkeys 部 分 就 会 看 到 PART_DT 而 看 不 到 CAL_DT， 更 看 不 到 那些 KYLIN_CAL_DT 上 的 衍生 维 
度 (如 图 6-6 所 示 ) 。 
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图 6-6 Advanced Setting 中 的 PART_DT 外 键 


虽然 衍生 维度 具有 非常 大 的 吸引 力 ， 但 这 也 并 不 是 说 所 有 维度 表 上 的 维度 都 得 变 成 衍生 维度 ， 如 果 从 维度 表 主 键 到 某 个 维度 
表 维 度 所 需要 的 聚合 工作 量 非常 大 ， 例 如 从 CAT_DT 到 YEAR_BEG_DT 基 本 上 需要 365 : 1 的 聚合 量 ， 那 么 将 YERR_BEG_DT 作 为 一 
个 普通 的 维度 ， 而 不 是 衍生 维度 可 能 是 一 种 更 好 的 选择 。 


-说明 衍生 维度 目前 只 用 于 衍生 维度 表 上 的 维度 ， 如 果 想 要 实现 事实 表 上 的 衍生 ， 例 如 从 事实 表 的 uset id 维度 衍生 出 uset 


name 列 ， 那 么 请 参考 https: //issues.apache.org/jira/browse/KYLIN-1313。 


63 ”并 上 友 粒 度 优化 


当 Segment 中 某 一 个 Cuboid 的 大 小 超出 一 定 的 阅 值 了 时， 系统 会 将 该 Cuboid 的 数据 分 片 到 多 个 分 区 中 ， 以 实现 Cuboid 数 据 
读 取 的 并 行 化 ， 从 而 优化 Cube 的 查询 速度 。 具 体 的 实现 方式 如 下 : 构建 引擎 根据 Segment 估 计 的 大 小 ， 以 及 参 
数 “kylin.hbase.region.cut” 的 设置 决定 gegment 在 人 存储 引擎 中 总 共 需 要 几 个 分 区 来 存储 ， 如 果 人 存储 引擎 是 HBase， 那 么 分 区 
的 数量 就 对 应 于 HBase 中 的 Region 数 量 。kylin.hbase.region.cut 的 默认 值 是 5.0， 单 位 是 GB， 也 就 是 说 对 于 一 个 大 小 估计 是 
50GB 的 Segment， 构 建 引擎 会 给 它 分 配 10 个 分 区 。 用 户 还 可 以 通过 设置 kylin.hbase.region.count.min (默认 为 1) 和 
kylin.hbase.region.count.max (默认 为 500) 两 个 配置 来 决定 每 个 Segment 最 少 或 最 多 被 划分 成 多 少 个 分 区 。 


由 于 每 个 Cube 的 并 发 粒度 控制 不 尽 相 同 ， 因 此 建议 在 Cube Designer 的 Conf? iguration Overwrites 中 为 每 个 Cube 量 身 定 
制 控制 并 发 粒度 的 参数 。 在 以 下 的 例子 中 ， 将 把 当前 Cube 的 kylin.hbase.region.count.min 设 置 为 
2，kylin.hbase.region.count.max 设 置 为 100 (如 图 6-9 所 示 ) 。 这 样 无 论 Segment 的 大 小 如 何 变化 ， 它 的 分 区 数量 最 小 都 不 会 
低 于 2， 最 大 都 不 会 超过 100。 相 应 地 ， 这 个 Segment 背后 的 存储 引擎 (HBase) 为 了 存储 这 个 Segment， 也 不 会 使 用 小 于 两 个 
或 超过 100 个 的 分 区 。 我 们 还 调整 了 默认 的 kylin.hbase.region.cut， 这 样 50GB 的 Segment 基 本 上 会 被 分 配 到 50 个 分 区 ， 相 比 默 
认 设 置 ， 我 们 的 Cuboid 可 能 最 多 会 获得 5 倍 的 并 发 量 。 
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图 6-9 ”设置 Cube 的 并 发 度 


6.4 Rowkeys 优 化 


前 面 章节 的 侧重 点 是 减少 Cube 中 Cuboid 的 数量 ， 尤 其 是 减少 那些 包含 高 基数 维度 的 Cuboid 的 数量 ， 因 为 这 类 Cuboid 的 占 
用 空间 往往 比 其 他 Cuboid 大 很 多 。 我 们 将 以 减少 Cuboid 数 量 为 目的 的 Cuboid 优 化 统称 为 Cuboid 剪 枝 。 本 节 将 侧重 通过 Cube 
的 Rowkeys 方 面 的 设置 来 优化 Cube 的 查询 性 能 。 


Cube 的 每 个 Cuboid 中 都 包含 了 大 量 的 行 ， 每 个 行 又 分 为 Rowkeys 和 和 Measure 部分。 每 行 Cuboid 数 据 中 的 Rowkeys 都 包含 
当前 Cuboid 中 所 有 维度 值 的 组 合 。Rowkeys 中 的 各 个 维度 按照 Cube Designer 一 Advanced Setting 一 RowKeys 中 定义 的 次 序 
和 编码 进行 组 织 (如 图 6-10 所 示 ) . 


LEAF CATEG ID 


META CATEG NAME 


CATEG LVL2 NAME 


CATEG LVL3 NAME 


LSTG FORMAT. NAME 


LSTG SITE ID 


图 6-10 ”定义 Rowkeys 的 次 序 


在 Rowkeys 设 置 区 域 中 ， 每 个 维度 都 有 几 项 关键 的 配置 ， 下 面 将 逐一 道 来 。 


65 ”其 他 优化 


6.5.1 ”降低 度量 精度 


有 一 些 度量 具有 多 种 可 选 精度 ， 但 是 精度 越 高 的 度量 往往 越 会 存在 一 定 的 代价 ， 它 意味 着 更 大 的 占用 空间 和 运行 时 开销 。 以 
近似 值 的 Count Distinct 度 量 为 例 ，Kylin 提 供 了 多 种 可 选 精度 ， 现 挑选 其 中 的 几 种 进行 对 比 ， 见 表 6-1。 


表 6-1 Count Distinct 精 度 和 占用 空间 列表 
Count Distinct X 每 行 占用 空间 


可 以 看 到 ， 精 度 最 大 的 类 型 比 精度 最 小 的 类 型 多 出 64 倍 的 空间 占用 ， 而 即使 精度 最 小 的 Count Distinct 度 量 也 已 经 非常 占用 
空间 了 。 因 此 ， 当 业务 可 以 接受 较 低 一 些 的 精度 时 ， 用 户 应 当 考 虑 到 Cube 空 间 方面 的 影响 ， 尽 量 选择 小 精度 的 度量 。 
6.6 小 结 


本 章 从 多 个 角度 介绍 了 Cube 优 化 的 方法 : 从 Cuboid 剪 枝 的 角度 ， 从 并 发 粒度 控制 的 角度 ， 从 Rowkeys 设 计 的 角度 ， 还 有 
从 度量 精度 选择 的 角度 。 总 的 来 说 ，Cube 优 化 需要 Cube 管 理 员 对 Kylin 有 较为 深刻 的 理解 和 认识 ， 这 也 在 无 形 中 提高 了 使 用 和 


管理 Kylin 的 门槛 。 为 此 ， 我 们 希望 在 将 来 的 版 本 中 能 够 通过 机 器 学 习 ， 以 及 对 数据 分 布 和 查询 样式 的 分 析 方 法 ， 自 动 化 一 部 分 
优化 操作 ， 帮 助 用 户 更 加 容易 地 管理 Kylin 中 的 数据 。 


第 7 章 ”应 用 案例 分 析 


前 面 的 章节 已 经 介绍 了 Apache Kylin 的 基本 工作 原理 ， 包 括 如 何在 Hive 或 Kafka 中 准备 数据 源 ， 如 何 根据 业务 需求 设计 星 形 
数据 模型 ， 如 何 基于 数据 模型 设计 和 优化 Cube， 以 及 不 同 的 Cube 构 建 算法 、SQL 查 询 和 可 视 化 的 多 种 接口 。 本 章 将 结合 应 用 案 
例 ， 介 绍 Apache Kylin 在 真实 业务 场景 中 的 详细 使 用 过 程 和 优化 方案 ， 以 期 读者 在 实现 自己 的 业务 需求 时 能 够 有 所 帮助 。 案 例 
中 所 用 到 的 数据 集 和 工具 都 包含 在 Apache Kylin 的 二 进 制 包 中 ， 感 兴趣 的 读者 可 以 自行 下 载 ， 并 参照 本 书 的 介绍 动手 试验 。 


7.1 基本 多 维 分 析 


在 Apache Kylin 官 方 提供 的 二 进 制 包 中 ， 包 括 一 份 基 于 销售 业务 分 析 应 用 场景 的 样 例 数据 ， 可 帮助 用 户 快速 体验 Apache 
Kylin 的 功能 。 本 节 将 基于 这 一 数据 集 ， 为 读者 介绍 从 零 开始 到 最 终 实现 SQL 快速 查询 的 全 部 过 程 。 


7.2. 流 式 分 析 


一 般 来 说， 对 离线 数据 进行 分 析 时 ， 其 时 效 性 往往 是 受 限 的 。 昌 然 用 户 可 以 在 ETL 结 束 之 后 立即 触发 Cube 增 量 构建 ， 但 由 
于 ETL 具 有 延 时 性 ， 因 此 数据 分 析 师 通常 难以 及 时 掌握 到 最 新 的 数据 。 为 了 解决 这 一 问题 ，Apache Kylin 从 1.5.0 版 本 开始 支持 流 
式 构建 Cube， 关 于 流 式 构建 的 详细 内 容 ， 读 者 可 以 仔细 阅读 第 4 章 的 相关 章节 。 


本 节 将 基于 HDP2.2.4.2Sandbox 的 环境 ， 利 用 模拟 数据 ， 从 一 个 实际 的 零售 业务 的 使 用 场景 出 发 ， 为 用 户 详细 介绍 流 式 数 
据 创 建 、 构 建 Cube， 以 及 执行 SQL 查询 的 详细 过 程 。 关 于 在 Sandbox 环 境 中 部 署 Apache Kylin 服 务 的 相关 内 容 ， 请 参考 第 10 
章 。 在 这 个 例子 中 ， 作 为 数据 源 的 Kafka 版 本 是 0.8.1。 


L3 4 


本 章 通 过 具体 的 真实 案例 详细 讨论 了 Apache Kylin 建 模 和 构建 Cube 的 整个 过 程 。 其 中 的 各 项 设置 ， 尤 其 是 Cube 的 高 级 设 
置 ， 如 聚合 组 和 Rowkeys 等 配置 ， 值 得 参考 。 示 例 数据 源 于 真实 的 案例 ， 稍 有 简化 ， 但 仍然 非常 有 代表 性 ， 和 希望 能 给 读者 带 来 
帮助 。 


第 8 章 ”扩展 Apache Kylin 


Apache Kylin 有 着 卓越 的 可 扩展 架构 。 总 体 架 构 上 的 三 大 依赖 一 数据 源 、 计 算 引 警 和 存储 引擎 一 都 有 清晰 的 接口 ， 保 
证 Apache Kylin 可 以 随时 接 入 最 新 的 数据 和 计算 存储 技术 ， 并 随 着 Hadoop 生 态 圈 一 起 演进 。 此 外 ， 作 为 Cube 核 心 的 聚合 类 型 
也 可 以 扩展 ， 用 户 可 以 定制 业务 领域 的 特殊 聚合 ， 在 Apache Kylin 上 直接 实现 业务 逻辑 。 维 度 编码 也 可 以 为 特定 数据 扩展 实现 
最 高 效 的 数据 压缩 。 


本 章 的 所 有 内 容 都 是 基于 Apache Kylin v1.5.2.1 的 。 新 版 本 在 细节 上 可 能 会 略 有 不 同 。 


8.1 可 扩展 式 架 构 


Apache Kylin 在 v1.3 版 本 之 前 极度 依赖 Hive、MapReduce 和 HBase。 尽 管 适 应 了 大 多 数 用 户 的 部 署 环 境 ， 但 从 设计 的 角度 
来 看 ，Apache Kylin 与 Hadoop 是 紧 耦 合 的 关系 ， 不 利于 扩展 。 随 着 Apache Kylin 的 推广 及 Hadoop 世 界 的 多 样 化 发 展 ， 越 来 越 
多 的 问题 在 架构 层 涌现 。 比 如 “可 不 可 以 直接 从 Oracle 导 入 数据 ”、“ 为 什么 不 使 用 HBase 作 为 存储 ”、“ 能 不 能 用 Spark 构 建 


Cube”， 等 等 。 


Apache Kylin v1.5 版 本 从 系统 层面 针对 可 扩展 性 进行 了 重 构 ( 见 第 1 章 图 1-4) ， 将 系统 的 三 大 依赖 (数据 源 、 计 算 、 存 
储 ) 进行 了 剥离 ， 定 义 了 清晰 的 接口 。 这 保证 了 Apache Kylin 可 以 更 容易 地 根据 需要 新 增 数 据 源 、 蔡 换 计算 框架 和 存储 系统 ， 
在 日 新 月 异 的 技术 潮流 中 始终 保持 领先 地 位 。 


此 外 Apache Kylin 还 允许 多 个 计算 引 警 和 存储 引擎 并 存 ， 保 证 了 极 大 的 灵活 性 。 假 设 用 户 希 望 从 MapReduce 引 警 过 渡 到 
Spark 引 警 ， 那 么 可 以 分 批 次 逐一 升级 每 个 Cube 的 计算 引擎。 例如 ， 首 先 升 级 部 分 Cube 并 进行 试验 ， 确 认 Spark 引 警 的 稳定 性 
和 先进 性 ， 之 后 再 按 计 划 升 级 其 余 的 Cube， 管 理 升级 过 程 中 的 不 确定 性 风险 。 


8.2 计算 引擎 扩展 
本 节 将 介绍 Apache Kylin 现 有 的 MapReduce 构 建 引擎 ， 并 以 它 为 范例 进一步 说 明 如 何 扩展 或 创建 一 个 新 的 Cube 计 算 引 


$E, (注意 ，“ 构 建 引擎 ”和 “计算 引擎 ”是 同义词 ， 可 以 互 换 。) 


8.3 数据 源 扩 展 


本 节 将 介绍 Hive 数 据 源 ， 并 以 它 为 范例 说 明 如 何 为 Apache Kylin 的 MapReduce 引 擎 增添 一 种 数据 源 。 请 注意 ， 由 于 数据 源 
的 实现 依赖 构建 引擎 对 输入 接口 的 定义 ， 因 此 本 节 的 具体 内 容 只 适用 于 MapReduce 引 警 。 如 果 要 为 其 他 的 构建 引擎 做 扩展 ， 请 
仔细 阅读 构建 引擎 的 相关 文档 和 代码 。 


实现 数据 源 扩展 之 前 ， 首 先 要 对 构建 引擎 有 足够 的 了 解 。 前 文 已 经 介绍 了 MapReduce 构 建 引 擎 的 工作 流程 和 其 对 数据 输入 
端的 接口 定义 (详情 见 8.2.3 节 和 8.2.4 节 ) 。 


实现 数据 源 首先 要 实现 |Source 接 口 。 例 如 HiveSource 的 主要 实现 如 下 : 


GOverride 
public «I» I adaptToBuildEngine(Class«I» engineInterface) { 
if (engineInterface -- IMRInput.class) 
return (I) new HiveMRInput(); 
else { 
throw new RuntimeException("Cannot adapt to " + engineInterface); 


m f 


public ReadableTable createReadableTable(TableDesc tableDesc) { 


return new Hive 


=) 


上 面 的 代码 包含 两 个 非常 简单 的 方法 。 方 法 adaptToBuildEngine () 只 能 适 配 IMRInput， 返 回 HiveMRInput 实 例 ， 也 就 
是 暂时 只 能 与 MapReduce 引 擎 协作 。 由 于 MR v1 引擎 和 MR v2 引擎 都 以 IMRInput 为 输入 接口 ， 因 此 这 个 实现 可 以 兼容 两 个 版 
本 的 MR 引擎 。 另 一 个 方法 createReadableTable () 返回 一 个 ReadableTable 对 象 ， 提 供 读 取 一 张 Hive 表 的 能 


由 来 看 一 下 HiveMRInput。 由 于 代码 较 长 ， 且 内 容 较 为 直观 ， 这 里 就 不 下 一 一 袭 述 了 ， 只 做 整体 上 的 介绍 。 


根据 IMRInput 的 定义 ，HiveMRInput 的 实现 主要 分 为 两 部 分 。 一 是 HiveTablelnputFormat 对 IMRTablelnputFormat 接 口 
的 实现 。 主 要 使 用 了 HCatinputFormat 作 为 MapReduce 的 输入 格式 ， 用 通用 的 方式 读 取 所 有 类 型 的 Hive 表 。Mapper 输 入 对 象 
为 DefaultHCatRecord， 统 一 转换 为 String[] 后 交 由 构建 引擎 处 理 。 


二 是 BatchCubinglnputside 对 IMRBatchCubinglnputside 的 实现 。 主 要 实现 了 在 构建 的 第 一 阶段 创建 平 表 的 步 又。 首先 
用 count (*) 查询 获取 Hive 平 表 的 总 行 数 ， 然 后 用 第 二 句 HQL 创 建 Hive 平 表 ， 同 时 添加 参数 根据 总 行 数 分 配 Reducer 数 目 。 合 
理 地 分 配 Reducer 数 目 非 常 重要 。 它 不 仅 会 影响 HQL 的 并 发 度 和 执行 速度 ， 同 时 还 会 影响 下 一 轮 构 建 Cube 的 Mapper 输 入 个 
数 。 该 数目 不 能 太 大 ， 不 然 会 导致 Reducer 和 Mapper 数 目 过 多 ，MR 系 统 执行 单位 不 够 ， 排 长 队 等 待 执行 。 该 数目 也 不 能 太 
小 ,不然 Reducer 和 Mapper 数 目 太 少 ， 并 发 度 不 够 ， 执 行 缓慢 。 


具体 细节 请 参阅 Apache Kylin 源 代码 。 


8.4 存储/ HE 


本 节 将 介绍 HBase 存 储 引 警 ， 并 以 它 为 范例 说 明 如 何 为 Apache Kylin 的 MapReduce 引 擎 增添 一 种 存储 引擎 。 请 注意 ， 由 于 
存储 引擎 的 实现 依赖 构建 引擎 对 输出 接口 的 定义 ， 因 此 本 节 的 具体 内 容 只 适用 于 MapReduce 引 擎 。 如 果 要 为 其 他 的 构建 引擎 做 
扩展 ， 请 仔细 阅读 构建 引擎 的 相关 文档 和 代码 。 


实现 存储 扩展 之 前 ， 首 先 要 对 构建 引擎 有 足够 的 了 解 。 前 文 已 经 介绍 了 MapReduce 构 建 引 擎 的 工作 流程 和 其 对 数据 输出 端 
的 接口 定义 (详情 见 8.2.3 节 和 8.2.4 节 ) 。 


实现 存储 引擎 的 入 口 在 于 对 lstorage 接 口 的 实现 。 比 如 HBasestorage 的 代码 摘要 如 下 : 


public class HBaseStorage implements IStorage 


GOverride 


public «I» I adaptToBuildEngine(Class«I» engineInterface) ( 


if (engineInterface -- IMROutput.class) 
return (I) new HBaseMROutput(i); 
else if (engineInterface == IMROutput2.class) 
return (I) new HBaseMROutput2Transition(); 
else ( 
throw new RuntimeException("Cannot adapt to " + engineInterface); 


GOverride 


public IStorageQuery createQuery(IRealization realization) { 


if (realization.getType() == RealizationType.CUBE) ( 
return ret; 


else { 


throw new IllegalArgumentException("Unknown realization type ”+ realization. 


xc 


首先 是 adaptToBuildEngine () 方法 ， 能 够 适 配 IMROutput 和 1IMROutput2 两 个 版 本 的 输出 接口 ， 适 配 MR v1 和 MR v2 两 
代 引 警 。 其 次 是 createQuery () 方法 ， 返 回 对 指定 IRealization (数据 索引 实现 ) 的 一 个 查询 对 象 。 因 为 HBase 存 储 是 为 Cube 
定制 的 ， 所 以 只 支持 Cube 类 型 的 数据 索引 。 具 体 的 |StorageQuery 实 现 应 根据 存储 引擎 的 版 本 而 有 所 不 同 。 主 要 是 因为 从 
Apache Kylin v1.5 开 始 引 入 了 分 片 存储 和 并 行 扫描 ， 以 致 底层 的 HBase 存 储 格式 会 有 所 区 别 ， 因 此 查询 的 实现 也 有 了 差别 。 


再 来 简单 介绍 一 下 HBaseMROutput2Transition 对 IMROutput2 接 口 的 实现 : 


public class HBaseMROutput2Transition implements IMROutput2 { 


GOverride 
public IMRBatchCubingOutputSide2 getBatchCubingOutputSide(CubeSegment seg) 


return new IMRBatchCubingOutputSide2() 


HBaseMRSteps steps = new HBaseMRSteps(seg); 


GOverride 


public void addStepPhase2 BuildDictionary (DefaultChainedExecutable job- 


jobFlow.addTask(steps.createCreateHTableStepWithStats(jobFlow.getIid 


GOverride 


public void addStepPhase3 BuildCube(DefaultChainedExecutable jobFlow, 


String cuboidRootPath) ( 
jobFlow.addTask(steps.createConvertCuboidToHfileStep(cuboidRootPath, 
jobFlow.getId())); 
jobFlow.addTask(steps.createBulkLoadStep(jobFlow.getId())); 


GOverride 
public void addStepPhase4 Cleanup(DefaultChainedExecutable jobFlow) 


Il nothing to do 


观察 IMRBatchCubingOutputSide2 的 实现 。 它 在 两 个 时 间 点 参与 Cube 构 建 的 工作 流 。 一 是 在 字典 创建 之 后 (Cube 构 造 
之 前 ) ， 在 addStepPhase2 BuildDictionary () 中 添加 了 “创建 HTable” 这 一 步 ， 估 算 最 终 CubeSegment 的 大 小 ， 并 以 此 来 
切 分 HTable Regions, 创建 HTable。 


第 二 个 插入 点 是 在 Cube 计 算 完毕 之 后 ， 由 构建 引擎 调用 addStepPhase3_BuildCube () 。 这 里 要 将 Cube 保 存 为 HTable, 
实现 分 为 “转换 HFile” 和 “批量 导入 HTable” 两 步 。 因 为 直接 插入 HTable 比 较 缓慢 ， 为 了 最 快速 地 将 数据 导入 到 HTable， 采 
取 了 Bulk Load 的 方法 。 先 用 一 轮 MapReduce 将 Cube 数 据 转 换 为 HBase 的 存储 文件 格式 HFile， 然 后 就 可 以 直接 将 HFile 导 入 空 
的 HTable 中 ， 完 成 数据 导入 。 


最 后 一 个 插入 点 addStepPhase4_Cleanup() 是 空 实现 ， 对 于 HBase 存 储 来 说 没有 需要 清理 的 资源 。 


Apache Kylin 的 核心 思想 是 预 聚合 ， 用 预先 计算 来 代 蔡 查询 时 计算 。 聚 合 类 型 代表 了 系统 的 天 键 能 力 。 处 处 为 扩展 性 和 灵 
活性 设计 的 Apache Kylin 在 这 里 也 没有 令 人 失望 。 开 发 者 完全 可 以 定制 新 的 聚合 类 型 ， 以 满足 行业 和 领域 的 特殊 需 


本 节 将 以 基于 HyperLogLog 算 法 的 去 重 计数 为 例 ， 讲 解 Apache Kylin 聚 合 类 型 的 扩展 接口 和 实现 方法 。 


8.6 ”维度 编码 扩展 


Apache Kylin 对 维度 的 保存 也 采用 了 编码 的 机 制 。 通 过 编码 可 以 极 大 地 提高 压缩 率 ， 用 更 小 的 空间 保存 更 多 的 数据 ， 同 时 
也 能 提高 读 写 的 速度 。 默 认 维度 编码 主要 有 “字典 ”和 “ 定 长 ”两 种 。 除 此 之 外 ， 开 发 者 还 可 以 订 制 新 的 维度 编码 。 本 节 将 介绍 
如 何 扩展 Apache Kylin， 增 添 新 的 维度 编码 。 


8.7 小 结 


本 章 讲述 了 Apache Kylin 各 方面 的 可 扩展 性 ， 包 括 总 体 的 可 扩展 架构 和 数据 源 、 构 建 引 | 擎 、 存 储 引 擎 三 大 部 件 ， 以 及 聚合 
类 型 和 维度 编码 。 可 以 看 到 ， 可 扩展 性 贯穿 了 Apache Kylin 的 所 有 关键 功能 ， 是 系统 的 核心 设计 理念 之 一 。 这 保证 了 Apache 
Kylin 能 够 更 快速 地 适应 新 的 技术 趋势 ， 在 澎 涯 的 技术 进化 浪潮 中 始终 保持 领先 的 地 位 。 


最 后 ，Apache Kylin 的 开发 非常 活跃 ， 有 上 百 位 开发 者 在 随时 修改 和 提交 代码 。 本 书 撰写 时 Apache Kylin 的 版 本 为 
v1.5.2.1， 因 为 图 书 发 行 有 时 间 延 迟 ， 如 果 本 章 涉 及 的 具体 代码 细节 与 最 新 的 Apache Kylin 不 符 ， 作 者 在 这 里 表示 攻 意 。 虽 然 具 
体 代码 多 变 ， 但 抽象 和 设计 仍然 相对 稳定 ， 相 信 本 章 一 定 能 为 Apache Kylin 的 开发 爱好 者 带 来 帮助 。 


第 9 章 Apache Kylin 的 企业 级 功能 


Apache Kylin 是 为 满足 企业 的 大 数据 分 析 需 求 而 诞生 的 ， 基 于 此 ， 从 一 开始 就 考虑 了 企业 对 数据 软件 各 方面 的 要 求 ， 如 安 
全 验证 、 权 限 控制 、 高 可 用 、 可 扩展 等 。 这 些 功 能 在 后 来 的 企业 应 用 中 被 证 明 是 非常 有 必要 的 。 本 章 将 介绍 Kylin 的 这 些 企业 级 
功能 。 


9.1 号 份 验证 


身份 验证 模块 可 为 Kylin 的 Web 界 面 和 RESTful Service 提 供 安全 验证 ， 它 检查 用 户 提 供 的 用 户 名 和 密码 以 决定 是 否 让 其 登录 
或 调用 APl。 


Kylin 的 Web 模 块 使 用 Spring 框架 构建 ， 在 安全 实现 上 选择 了 Spring Security, Spring Security 是 Spring 项 目 组 中 用 来 提供 
安全 认证 服务 的 框架 ， 它 广泛 支持 各 种 身份 验证 模式 ， 这 些 验 证 模型 大 多 由 第 三 方 提供 ，Spring Security 也 提供 了 自己 的 一 套 
验证 功能 。 


. 注意 ”下文 将 假设 读者 熟悉 Java Web Application 和 Spring 框架 。 这 些 框 块 内 容 丰 富 ， 但 不 在 本 书 范围 之 内 。 互 联网 上 有 大 量 
相关 的 资料 ， 请 有 需要 的 读者 自行 查阅 。 参 考 资 料 地 址 为 : 


http: //docs.oracle.com/javaee/7 /tutotial/partwebtier.htm£zBNADP 


http: //docs.spting.io/spting-secutity /site/docs/cutrent/reference/htmlsingle/ 
个 


<param-value 


下 面 介绍 Kylin 是 如 何 配置 使 用 Spring Security 的 。 首 先 ， 在 Web 模 块 的 主 配置 文件 web.xml 中 ， 可 以 看 到 安全 配置 文件 
kylinsecurity.xml 被 加 入 Spring 配置 文件 列表 ， 同 时 声明 了 相应 的 Listener， 具 体 代 码 如 下 : 
«context-param- 
«param-name»contextConfigLocation-c/param-name- 


classpath:applicationContext.xml 
classpath:kylinSecurit 
classpath* 


r.xml 

:kylin-*-plugin.xml 
«/param-value- 

«/context-param-» 

«filter» 
«filter-name»springSecurityFilterChain-/filter-name- 
«/filter» 
«filter-mapping» 
«tfilter-name 


-curl-pattern»/ 
«/filter-mapping 


«filter-class»org.springframework.web.filter.DelegatingFilterProxy-/filter-class» 
-»springSecurityFilterChain-/filter-name- 
/'*—/url-pattern» 


然后 ， 在 安全 配置 文件 kylinSecurity.xml 中 ， 告 知 Spring Security 框 架 应 如 何 构造 authentication-manager 的 对 象 。 构 造 
authentication-manager 对 象 需要 一 个 或 多 个 “authentication-provider” 对 象 ; 而 authentication-provider 又 需要 user- 
service 对 象 来 提供 用 户 的 信息 。 


在 kylinSecurity.xml 里 ，Kylin 提 供 了 三 个 配置 prof? ile: 


"testing" , 
x: 自 定 义 验 证 、LDAP 验 证 和 单 点 登录 验证 。 以 下 三 个 小 节 将 对 它们 分 别 进行 介绍 


“ldap” 和 “saml”， 依 次 对 应 于 三 种 用 户 验证 广 
9.2 授权 


用 户 的 授权 发 生 在 登录 验证 之 后 。 授 权 决 定 了 此 用 户 在 系统 中 的 角色 和 所 


全 GZ 


能 采取 的 动作 。Apache Kylin 中 的 授权 是 角色 加 
访问 控制 (Access Control Level, ACL) 的 授权 。9.1 节 提 到 Kylin 有 三 种 用 户 角 色 ， 下 面 是 对 这 三 种 角色 的 详细 解释 。 
: ROLE. ANALYST: 分 析 师 角色 ; 具有 该 角色 的 用 户 ， 将 能 够 查询 与 操作 系统 内 具有 相应 ACL 权 限 的 Cube。 
: ROLE_MODELER: 建 模 人 员 角 色 ; 具有 该 角色 的 用 户 ， 将 能 够 创建 和 修改 数据 模型 及 Cube， 对 自己 创建 的 Cube 可 以 管 
理 其 ACL; 并 操作 其 他 具有 相应 ACL 的 Cube。 


| ROLE ADMIN: 管理 员 角 色 ; 具有 该 角色 的 用 户 ， 将 能 够 执行 系统 管理 相关 的 操作 ， 如 导入 Hive 表 、 开 启 /关闭 缓存 、 
载 元 数据 等 ; 并 具有 对 所 有 项 目 和 Cube 的 创建 、 修 改 、 查 询 和 删除 的 权力 。 


hal 
PSI 


在 当前 版 本 (v1.5.2) 中 ， 当 用 户 登 录 Kylin 成 功 时 ， 将 默认 具有 ROLE_ANALYST 和 ROLE_MODELER 角 色 
户 ROLE ADMIN 的 角色 。 


(由 “acl.defaultRole” 配 置 ) ; Kylin 视 该 用 户 是 否 属于 相应 的 管理 员 群 组 (由 “acl.adminRole” 配 置 ) ， 来 决定 是 否 授予 用 


Kylin 提 供 了 项 目 级 别 和 Cube 级 别 的 访问 控制 (Access Control Level, ACL) ， 以 实现 细 粒 度 的 授权 。 若 用 户 创建 了 项 目 
或 Cube， 那 么 该 用 户 便 是 此 实例 的 所 有 者 ， 具 有 了 对 此 实例 的 控制 权限 ; 其 他 用 户 如 果 想 访问 该 实例 ， 需 要 现 有 的 所 有 者 对 其 
授权 。 


访问 控制 权限 分 为 如 下 4 种 类 型 。 


: QUERY: 可 以 查询 Cube 的 内 容 ， 但 不 能 操作 和 修改 ， 通 常 将 此 权限 赋予 像 数据 分 析 师 之 类 的 只 需要 查询 Cube 的 人 员 或 服 


务 账号 。 


: OPERATION: 可 以 对 Cube 进 行 操 作 ， 如 构建 、 刷 新 等 ， 但 是 不 能 修改 Cube 的 定义 ; 一 般 将 此 权限 赋予 需要 构建 Cube 的 
人 员 或 服务 账号 。 


:EDIT: 可 以 修改 Cube 的 定义 ; 一 般 将 此 权限 赋予 非 创 建 者 的 其 他 建 模 人 员 等 。 
: ADMIN: 对 Cube 有 管理 权限 ， 包 含 了 以 上 三 种 权限 ， 还 可 以 进行 删除 操作 ; 一 般 将 此 权限 赋予 系统 管理 人 员 。 


管理 Cube 级 别 的 权限 ， 选 择 并 展开 要 管理 的 Cube， 再 单 击 "Access" 标签 页 ， 会 显示 已 有 的 ACL， 如 果 要 添加 ， 则 单 
击 “Grant” 按 钮 ， 如 图 9-2 所 示 。 


B 6:30 PST 


Grid SQL JSON(Cube) Access Notification HBase 


eon [= cue 
Type @UserORole Name | User NT Account... Permission 


No Result. 


图 9-2 ”管理 Cube ACL 


管理 项 目 级 别 的 权限 ， 需 要 单 击 页 面 左上 角 的 “Manage Project" ， 选 择 并 展开 想 要 管理 的 项 目 ， 再 单 击 “Access” 标 签 
页 ， 如 图 9-3 所 示 。 


Cm Eee 


Type QUser Role Name | User NT Account... Permission | cuBEQuERY B 


No Result. 


图 9-3 ”管理 项 目 ACL 


ACL 可 以 按 用 户 来 授予 ， 或 者 按 角色 来 批量 授予 。 当 选择 “User” 的 时 候 ， 在 “Name” 输 入 框 中 输入 用 户 名 ; 当选 择 
是 “Role” 类 型 的 时 候 ， 从 下 拉 框 中 选择 一 个 角色 ; 然后 单 击 “Grant” 按 钮 添加 ， 如 图 9-4 所 示 。 


Type ©@ User ORole Name | User NT Account... io Grant 


图 9-4 授予 ACL 


受权 后 的 ACL 会 显示 在 列表 中 ， 用 户 可 以 修改 或 收回 (使 用 Revoke 按 钮 ) ， 如 图 9-5 所 示 。 


Type Access Update Revoke 


User CUBE QUERY -- select access -- |c] 


图 9-5 ”修改 或 收回 ACL 


当 用 户 执行 某 个 操作 的 时 候 ， 如 果 发 现 其 不 具备 某 个 权限 ，Kylin 会 报 Access Denied 的 错误 。 


9.3 小 结 


本 章 介绍 了 Apache Kylin 的 企业 级 功能 ， 主 要 是 其 安全 验证 和 授权 方面 的 功能 。 尤 其 是 身份 验证 功能 ， 基 于 Spring 
security， 具 有 非常 好 的 可 扩展 性 和 灵活 性 。 可 以 与 所 有 主流 的 企业 用 户 管理 平台 对 接 ， 实 现 单 点 登录 (SSO) 。 除 此 之 外 ， 还 
有 更 多 企业 级 功能 有 待 开 发 、 例 如 更 强 的 按 行列 管理 的 安全 性 、 企 业 级 的 监控 能 力 ， 等 等 。Apache Kylin 社 区 会 在 这 些 方面 持 
续 努 力 。 


另外 还 有 企业 级 运行 和 维护 的 相关 内 容 ， 将 在 第 10 章 详细 介绍 。 


第 10 章 ” 运 维 管理 


第 9 章 中 介绍 了 Apache Kylin 作 为 企业 数据 平台 组 件 的 一 些 重要 功能 。 本 章 将 首先 介绍 Apache Kylin 的 快速 安装 方法 和 基本 
配置 ， 帮 助 读者 在 Hadoop 环 境 中 迅速 启动 Apache Kylin 服 务 ; 然后 着 重 介绍 Apache Kylin 在 实际 的 企业 环境 中 常用 的 分 布 式 
部 署 方 案 ， 以 及 如 何 达到 高 并 发 、 高 性 能 、 高 可 用 的 目的 ; 此 外 ， 本 章 还 将 介绍 Apache Kylin 运 维 管理 中 需要 注意 的 事项 和 常 
用 的 工具 ， 以 及 如 何 从 Apache Kylin 开 源 社区 获取 帮助 ， 使 Apache Kylin 运 维 管理 人 员 能 够 明确 运 维 任务 、 快 速 定位 故障 并 找 
到 解决 途径 。 


在 Apache Kylin 中 ， 对 Cube 的 构建 和 存储 需要 依赖 于 Hadoop 和 HBase 集 群 ， 因 此 在 部 署 Apache Kylin 之 前 需要 事先 准备 
好 所 需要 的 软 硬 件 环境 。 此 外 ， 为 了 使 Apache Kylin 更 加 充分 地 利用 集群 资源 ， 还 需要 调整 Apache Kylin 的 配置 参数 以 实现 功 
能 适 配 和 性 能 优化 。 本 节 将 对 这 些 内 容 做 详细 介绍 。 


10.2 FAE 


对 于 Apache Kylin 的 运 维 人 员 来 说， 通过 日 志和 报警 对 Apache Kylin 进 行 监控 、 了 解 Apache Kylin 整 体 的 运行 情况 都 是 重 
要 的 工作 职责 之 一 。 那 么 ， 如 何 收集 和 阅读 Apache Kylin 的 日 志 呢 ? 如 何 设置 任务 报警 以 便 及 时 采取 措施 呢 ? 如 何 开启 系统 仪 
表盘 了 解 Apache Kylin 的 运行 情况 呢 ? 本 节 将 针对 这 些 问题 进行 详细 解答 。 


10.3 HFP 


Apache Kylin 服 务 器 每 天 都 会 接受 不 同 用 户 提 交 的 多 个 Cube 构 建 任务 ， 有 时 会 因为 Cube 设 计 不 当 或 集群 环境 异常 等 原 
因 ， 叶 臻 Cube 构建 失败 或 时 间 过 长 ， 这 时 就 需要 运 维 人 员 提 高 警惕 ; 此 外 ，Kylin 服 务 运行 一 段 时 间 之 后 ， 一 些 存 在 于 HBase 或 
HDFS 上 的 数据 会 成 为 无 用 数据 ， 需 要 定时 对 存储 器 进行 垃圾 清理 。 本 节 将 介绍 这 些 日 常 维护 中 常见 的 问题 和 相应 的 对 策 。 


10.4 ”常见 问题 和 修复 


在 运 维 过 程 中 ， 有 些 问 题 是 经 常会 遇 到 的 。 我 们 收集 了 社区 中 出 现 频 率 较 高 的 一 些 问题 ， 并 在 此 给 出 常见 的 解决 方法 。 
问题 1: 升级 Apache Kylin 版 本 后 所 有 查询 报错 Timeout visiting cube! 


这 个 错误 的 原因 是 HBase 协 处 理 器 中 出 现 错误 ， 建 议 用 户 查 看 日 志 ， 并 详细 查看 该 报错 周边 是 否 存在 其 他 异常 。 常 见 的 原因 
是 由 于 新 老 版 本 的 协 处 理 器 通信 协议 不 兼容 ， 解 决 方法 是 重新 部 署 HBase 协 处 理 器 。 
Apache Kylin 中 提供 了 一 个 命令 用 于 对 某 些 HTable 的 协 处 理 器 进行 动态 更 新 : 


SKYLIN HOME/bin/kylin.sh org.apache.kylin.storage.hbase.util.DeplovCoprocessorCLI 


SKYLIN HOME/lib/kylin-coprocessor-*.jar [all|l-cube «cube name»|-table «htable name>] 


该 命令 最 后 的 参数 用 于 指定 HTable 的 范围 。 如 果 是 all， 那 么 该 Apache Kylin 服 务 中 所 有 的 HTable 都 将 被 更 新 ; 如 果 是 - 
cube«cube name>， 则 被 指定 的 Cube 下 所 有 的 HTable 都 将 被 更 新 ;如 果 是 -table<htable name> ， 则 仅仅 更 新 被 指定 名 称 
的 HTable。 


问题 2: 构建 Cube 的 MapReduce 总 是 无 法 启动 ， 原 因 是 yarn 无 法 分 配 足够 的 内 存 。 


在 构建 Cube 时 有 两 种 算法 : Fast Cubing 和 Layer Cubing， 而 Fast Cubing 对 内 存 的 要 求 较 高 。 因 此 在 Apache Kylin 配 置 
文件 kylin job conf.xml 和 Kkylin_ job conf inmem.xml 中 对 Mapper 的 内 存 定义 了 默认 值 ， 见 参数 


mapreduce.map.memory.mb 和 mapreduce.mapjava.opts。 这 些 值 超 过 了 yarn 中 定义 的 container 内 存 限制 。 建 议 对 yarn 配 
置 和 Kylin 配 置 文件 中 Mapper 内 存 配置 进行 核对 ， 然 后 做 响应 的 调整 。 


问题 3: 在 Fast Cubing 构 建 Cube 时 ，Mapper 抛 出 OutOfMemoryException 异 常 。 


造成 这 种 问题 的 原因 ， 一 方面 有 可 能 是 Mapper 的 内 存 设置 过 少 ， 可 以 调整 kylin_ job_conf.xml (Apache Kylin1.5.2 版 本 之 
BU) 或 kylin_ job conf inmem.xml (Apache Kylin1.5.2 版 本 之 后 ) 中 对 Mapper 内 人 存 的 设置 ， 参 数 是 
mapreduce.map.memory.mb 和 mapreduce.map.java.opts。 另 一 方面 ， 有 可 能 是 一 个 Mapper 处 理 了 过 多 的 数据 ， 可 以 缩小 
kylin_hive_conf.xml 中 的 dfs.block.size 参 数 ， 使 Hive 输 出 更 多 小 文件 ， 从 而 增 大 Mapper 数 量 ， 并 减 小 单个 Mapper 处 理 的 数据 


= 
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问题 4: 在 构建 Cube 时 报错 说 Cube signature 不 一 致 。 


Cube Signature 是 对 Cube 结 构 一 致 性 的 保护 措施 ， 造 成 Signature 不 一 致 的 原因 主要 有 两 个 : 一 是 手动 修改 了 JSON 格 式 的 
元 数据 信息 并 覆盖 了 metastore， 在 这 种 情况 下 请 再 次 核对 修改 是 否 有 必要 ， 如 果 确 有 必要 ， 建 议 Purge 这 个 Cube 后 在 Web UI 
上 修改 元 数据 结构 ; 二 是 Apache Kylin 升 级 后 由 于 版 本 不 兼容 导致 的 ， 这 种 情况 出 现 的 概率 较 小 ， 建 议 先 到 社区 求助 。 对 于 了 
解 Cube Signature 的 高 级 用 户 ， 可 以 使 用 下 面 这 个 工具 强制 刷新 所 有 的 Cube Signature: 


SKYLIN HOME/bin/kylin.sh org.apache.kylin.cube.cli.CubeSignatureRefresher [cube names] 


在 这 个 命令 中 ，Cube 名 字 参 数 可 选 ， 若 为 空 则 更 新 所 有 的 Cube。 这 个 工具 会 重新 计算 并 覆盖 Cube 的 Signature， 如 果 手 
动 修改 了 就 绪 状态 的 Cube 元 信息 ， 并 执行 此 工具 则 可 能 导致 Cube 的 不 同 Segment 间 的 结构 不 一 致 ， 请 慎 用 ! 
10.5 ”获得 社区 帮助 

目前 ，Apache Kylin 是 Apache 软 件 基金 会 的 顶级 项 目 ， 拥 有 相当 活跃 的 开源 社区 。 因 此 ， 用 户 有 任何 问题 都 可 以 向 
Apache Kylin 社 区 进行 讨论 。Apache Kylin 社 区 推荐 的 两 种 交流 方式 是 邮件 列表 和 JIRA。 
10.6 ”小结 


本 章 汇 总 了 Apache Kylin 从 安装 到 配置 ， 从 监控 到 维护 的 各 方面 内 容 。 需 要 注意 的 是 Apache Kylin 本 质 上 是 一 个 Hadoop 
应 用 程序 ， 它 的 稳定 和 健康 在 很 大 程度 上 依赖 Hadoop 和 集群 服务 的 稳定 和 健康 。 在 实际 使 用 中 ， 很 多 常见 的 Apache Kylin 问 题 追 
溯源 头 都 会 归 因 于 Hadoop 集 群 的 异常 。 因 此 要 用 好 Apache Kylin ， 有 一 个 强健 的 Hadoop 集 群 和 运 维 团队 至 关 重 要 。 


第 11 章 ”参与 开源 


Apache Kylin (截稿 时 ) 是 唯一 一 个 由 中 国 团队 贡献 到 Apache 软 件 基金 会 (ASF) 的 顶级 开源 项 目 ， 在 这 之 前 ， 曾 经 也 有 
过 几 个 项 目 加 入 Apache 孵 化 器 项 目 ， 但 最 终 都 失败 了 。 而 Apache Kylin 在 短 短 的 11 个 月 之 内 ， 从 无 到 有 ; 从 最 初 的 几 个 人 发 展 


奖 ; Kylin 社 区 证 明了 中 国 开发 者 也 可 以 毫 无 障碍 地 参与 到 国际 顶级 社区 ， 引 导 大 数据 技术 发 展 。Apache 孵 化 器 副 总 裁 Ted 
Dunning 在 Apache Kylin 毕 业 成 为 顶级 项 目的 官方 新 闻 中 评价 道 : "Apache Kylin 在 技术 方面 当然 是 振奋 人 心 的 ， 但 同样 令 人 
兴奋 的 是 Kylin 代 表 了 亚洲 国家 ， 特 别 是 中 国 ， 在 开源 社区 中 越 来 越 高 的 参与 度 ”。 


作为 Apache 软 件 基金 会 项 目的 开拓 者 ， 我 们 也 非常 希望 能 够 将 经 验 分 享 给 每 一 位 有 志 于 贡献 到 开源 社区 的 朋友 ， 来 一 起 壮 
大 开源 世界 的 力量 ， 并 进一步 扩大 来 自 中 国 的 开发 者 的 影响 力 。 


11.1 Apache Kylin 的 开源 历程 


2013 年 年 中 ，Kylin 项 目 在 eBay 内 部 启动 。 


2014 年 10 月 ，Kylin 平 台 在 eBay 内 部 正式 上 线 ， 并 正式 在 github.com 上 开源 ， 短 短 几 天 即 获得 业界 专家 的 认可 ， 他 们 也 鼓 
励 eBay 的 Kylin 核 心 团 队 加 入 Apache 软 件 基金 会 ， 与 Hadoop、Spark、Kafka 等 知名 大 数据 项 目 一 起 构建 大 数据 生态 社区 。 


2014 年 11 月 ， 正 式 加 入 Apache 孵 化 器 项 目 ， 并 改名 为 Apache Kylin. 


2015 年 11 月 ， 在 经 过 严格 的 社区 讨论 和 投票 之 后 ，Apache Kylin 正 式 毕业 成 为 ASF 顶 级 项 目 ， 为 首 个 ， 也 是 目前 唯一 的 来 
自 中 国 的 Apache 顶 级 项 目 (TLP) 。 


2016 年 3 月 ，Kyligence 公 司 成 立 ， 成 为 推动 社区 发 展 的 新 动力 。 


Apache Kylin 从 刚 开始 开源 时 不 到 10 个 人 的 社区 ， 逐 步 发 展 到 了 几 百 人 的 全 球 活 跃 社区 ， 并 赢得 了 众多 使 用 者 ， 在 eBay、 
美 团 、 百 度 、 网 易 、 京 东 、 微 软 、 中 国 移动 等 著名 公司 被 作为 核心 大 数据 分 析 系 统 。 此 外 ， 还 发 展 了 非常 多 的 贡献 者 
(Contributor) 、 核 心 代码 提交 者 (Committer) 及 项 目 管理 委员 会 成 员 (PMC Member) ， 其 中 还 包括 来 自 京 东 、 美 团 、 
网 易 等 的 工程 师 ， 社 区 正在 一 天 天 逐步 壮大 。 


11.2 为 什么 参与 开源 


作为 个 人 ， 参 与 开源 已 经 成 为 越 来 越 多 朋友 的 共识 。 在 今天 ， 特 别 是 大 数据 领域 ， 绝 大 部 分 技术 都 是 开源 的 ， 包 括 
Hadoop、Spark、Kafka、Kylin 等 ， 个 人 在 开源 社区 的 成 长 和 能 力 提升 显而易见 。 在 有 兴趣 的 领域 内 ， 不 断 参 与 和 贡献 ， 赢 得 
社区 的 认可 ， 甚 至 进一步 成 为 Committer 或 PMC Member， 这 对 个 人 的 技术 能 力 ， 对 职业 的 发 展 等 都 会 带 来 极 大 的 价值 。 


作为 公司 ， 参 与 开源 也 已 经 成 为 一 个 趋势 ， 几 乎 各 个 互联 网 公司 都 在 通过 开源 项 目 来 彰显 自己 的 技术 实力 ， 构 建 技术 品牌 。 
好 的 开源 项 目 可 以 极 大 地 提升 公司 的 形象 ， 特 别 是 在 工程 师 群体 中 的 认 知 度 。 这 里 典型 的 案例 是 LinkedIn， 从 Kakfa 开 
始 ，Linkedln 不 断 开 源 了 很 多 优秀 的 项 目 ， 特 别 是 Kafka， 很 好 地 推动 了 整个 行业 的 发 展 ， 几 乎 成 为 了 事实 标准 。Linkedln 也 由 
此 收获 了 无 数 的 赞誉 。 


11.3 Apache 开源 社区 简介 


11.3.1. (8T 


Apache 软 件 基金 会 (Apache Software Foundation, ASF) 【1]， 是 依据 美国 国内 税法 (Internal Revenue Code, IRC) 
的 501 (c) 3 条 款 在 1999 年 建立 的 非 营利 性 组 织 ， 具 有 如 下 特点 。 


: 为 开放 、 协 作 的 软件 开发 项 目 提供 基础 ， 包 括 硬 件 、 交 流 及 业务 基础 架构 等 。 

o 作为 一 个 独立 的 法 律 实体 以 使 得 公司 及 个 人 能 够 捐献 资源 并 保证 这 些 资 源 为 公益 所 使 用 。 
` 为 个 人 志愿 者 提供 针对 基金 会 项 目 法 律 诉讼 的 庇护 方式 。 

: 保护 Apache 品 有 牌 及 其 软件 产品 ， 避 免 被 其 他 组 织 滥 用 。 


在 其 所 支持 的 Apache 项 目 与 子 项 目 中 ， 所 发 行 的 软件 产品 都 遵循 Apache 许 可 证 (Apache License) 协议 ， 目 前 协议 版 本 
为 2.0， 即 常 说 的 Apache License2.0l2], 


Apache 软 件 基金 会 正式 创建 于 1999 年 ， 在 这 之 前 ， 为 了 维护 Apache HTTP 服 务 器 ， 在 Apache HTTP 服 务 器 的 作者 Rob 
MaCool 不 再 维护 这 个 项 目 时 ， 由 一 群 这 个 服务 器 软件 的 爱好 者 和 使 用 者 自发 成 立 了 一 个 兴趣 小 组 ， 通 过 邮件 列表 的 方式 进行 交 
流 和 软件 维护 。 这 些 开 发 者 、 使 用 者 和 爱好 者 逐渐 将 这 个 小 组 命名 为 “Apache 组 织 ”。 这 个 命名 来 自 北 美 当地 的 一 支 印 第 安 部 
落 ， 该 部 落 以 超 高 的 军事 素养 和 超人 的 耐力 著称 ，19 世 纪 后 半期 对 入 侵 者 进行 了 反抗 。 为 了 对 这 支 印 第 安 部 落 表示 敬仰 之 意 ， 
取 其 部 落 名 称 (Apache) 作为 服务 器 名 ， 并 逐渐 演化 成 了 今天 的 Apache 软 件 基金 会 组 织 。 直 到 今天 ，ASF 社 区 依然 保持 了 使 用 
邮件 列表 作为 主要 沟通 方式 和 参与 项 目 方式 的 传统 。 


自 1999 年 成 立 以 来 ， 这 个 全 志愿 者 基金 会 见证 了 超过 350 个 领先 的 开源 项 目 ， 包 括 Apache HTTP 服 务 器 一 一 全 球 最 流行 的 
Web 服 务 器 软件 。 通 过 被 称 为 “The Apache Way” 的 AsF 精 英 管理 过 程 ， 超 过 550 位 个 人 成 员 和 4700 位 代码 提交 者 成 功 合作 建 
立 了 可 免费 使 用 的 企业 级 软件 ， 使 全 球 数 以 百 万 级 的 用 户 受 益 : 数 干 软件 解决 方案 在 Apache 许 可 证 下 发 布 ; 社区 积极 参与 ASF 
邮件 列表 ， 指 导 项 目 ， 并 举办 该 基金 会 的 正式 用 户 会 议 、 培 训 和 ApacheCon。ASF 是 美国 501 (c) (3) 慈善 组 织 ， 由 个 人 捐 
赠 和 包括 Bloomberg、Budget Direct、Cerner、Citrix、Cloudera Comcast、Facebook、Google、Hortonworks、HP、 
Huawei, IBM, InMotion Hosting, iSigma, LeaseWeb, Matt Mullenweg, Microsoft, PhoenixNAP, Pivotal, 
Private, Internet Access, Produban, Red Hat, Serenata Flowers、WANdisco 和 Yahoo 等 企业 赞助 商 提供 的 资金 以 维持 
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[1] AA https:/ /zh.wikipedia.org/ wiki/ Apache 4 t 34 2. 


[2] &3X https:/ /www.apache.org/licenses/LICENSE-2.0. 


11.4 如 何 贡献 到 开源 社区 


参与 开源 社区 ， 贡 献 到 开源 社区 ， 是 很 多 工程 师 的 梦想 ， 如 果 自 己 的 Patch 能 够 被 著名 的 项 目 所 接受 ， 那 将 是 一 件 非常 令 人 


兴奋 的 事情 。 但 很 多 国人 开发 者 有 一 个 误区 ， 认 为 只 有 提交 代码 才 算 是 贡献 者 。 这 里 必须 澄清 的 是 ， 开 源 社区 ， 特 别 是 Apache 
社区 ， 非 常 欢迎 代码 之 外 的 贡献 ， 包 括 文档 、 测 试 、 报 Bug、 修 Bug、 宣 传 、 文 章 、 博 客 、 线 下 活动 等 ， 都 非常 欢迎 。 提 交代 码 
只 是 诸多 贡献 中 的 一 种 。 


115 礼仪 与 文化 


在 鼓励 读者 参与 和 贡献 到 开源 中 的 时 候 ， 也 必须 要 说 明 一 下 ， 社 区 很 多 时 候 都 是 虚拟 的 ， 不 是 面对面 的 交流 ， 更 多 的 时 候 是 
邮件 、JIRA 或 Github lssues 等 方式 的 交流 。 这 里 ， 由 于 东西 方 文化 的 区 别 ， 有 很 多 工程 师 吃 了 亏 。 因 此 特别 需要 大 家 注意 以 下 
几 个 方面 。 


尊重 社区 和 贡献 者 。 很 多 工程 师 在 使 用 开源 软件 的 时 候 ， 特 别 是 碰 到 问题 ， 在 进行 提问 、 报 告 Bug 等 的 时 候 表 现 出 一 些 非常 
不 成 熟 的 行为 。 例 如 经 常 碰 到 有 人 有 了 问题 ， 在 社区 提问 ， 经 常 急 哄 哄 地 希望 即刻 被 解决 ， 而 很 多 时 候 因为 解答 不 及 时 或 没有 响 
应 的 时 候 就 采用 各 种 刷 屏 等 过 激 方式 ， 甚 至 对 社区 进行 指责 。 但 是 要 知道 开源 项 目 作 者 将 项 目 贡 献 出 来 ， 已 经 是 最 大 的 帮助 了 ， 
整个 开源 社区 的 运营 依靠 的 是 每 个 人 的 志愿 行为 ， 类 似 的 行为 不 但 不 会 带 来 解答 ， 很 多 时 候 只 会 带 来 负面 效果 ， 特 别 是 在 西方 人 
为 主 的 社区 中 。 另 一 种 行为 是 不 做 深入 研究 ， 甚 至 不 会 搜索 ， 碰 到 非常 基础 的 问题 不 管 三 七 二 十 一 就 提问 ， 这 种 问题 很 多 时 候 简 
单 地 Google 一 下 就 可 以 找到 解决 方案 ， 特 别 是 在 刚 使 用 一 个 开源 项 目的 时 候 。 和 希望 大 家 能 够 尊重 社区 和 贡献 者 ， 这 样 整个 社区 
也 才 会 尊重 每 一 个 人 ， 接 纳 更 多 来 自 中 国 的 贡献 者 。 

注意 用 词 与 语气 。 作 为 非 英语 母语 的 工程 师 ， 在 西方 社区 中 进行 交流 确实 没有 其 他 母语 是 英语 国家 的 工程 师 便利 。 在 社区 中 
与 人 交流 的 时 候 一 定 要 多 注意 一 些 这 方面 的 差异 。 不 管 是 提问 、 解 答 问题 ， 还 是 讨论 功能 等 的 时 人 息 ， 多 多 组 织 一 下 语言 ， 现 在 各 
种 工具 非常 丰富 ， 足 以 帮助 大 家 无 障碍 地 进行 沟通 。 我 们 在 和 ASF 基 金 会 董事 、 其 他 顶级 项 目 负责 人 交流 的 时 候 经 常 被 反应 来 自 
中 国 的 工程 师 不 太 注意 这 方面 的 问题 ， 有 些 时 候 甚至 还 很 粗鲁 ， 例 如 使 用 命令 的 口气 和 方式 等 ， 这 可 能 会 导致 难以 与 社区 的 其 他 
成 员 建 立信 任 。 对 于 我 们 来 说 ， 英 语 是 一 个 挑战 ， 但 更 多 的 时 候 是 一 个 机 会 ， 参 与 国际 社区 是 学 英语 的 最 好 机 会 ! 


Speak Loudly。 另 外 一 个 有 趣 的 现象 是 中 国 工程 师 贡献 了 很 多 ， 特 别 是 补丁 、 代 码 甚 至 特性 等 ， 但 却 很 少 有 中 国 工程 师 成 
为 Committer 和 PMC member。 这 在 很 大 程度 上 制约 了 我 们 自身 的 发 展 ， 很 难 去 影响 项 目的 演进 。 一 方面 是 由 于 使 用 英语 带 来 
了 一 些 挑战 ， 另 外 则 是 咱们 国人 比较 含 著 ， 不 太 看 重 自己 的 贡献 ， 或 者 将 自己 的 贡献 说 出 来 ， 这 方面 也 需要 大 家 更 多 的 努力 。 


11.6 ”如 何 参与 Apache Kylin 


参与 Apache Kylin 社 区 ， 首 先 要 做 的 是 订阅 相关 的 邮件 列表 。 
- 开发 者 邮件 列表 : dev(akylin.apache.org 
- 使 用 者 邮件 列表 : user@kylin.apache.org 


使 用 你 常用 的 邮件 地 址 ， 发 送 一 封 邮 件 (内 容 为 空 即 可 ) 到 dev-subscribe@kylin.apache.org 或 user- 
subscribe@kylin.apache.org。 之 后 你 会 收 到 一 封 询问 邮件 ， 单 击 回复 该 邮件 即 可 确认 你 的 订阅 。 之 后 你 会 收 到 一 封 确认 邮 
件 ， 后 续 相 关 邮 件 列表 里 的 讨论 就 会 被 接收 下 来 。 由 于 社区 讨论 非常 频繁 ， 建 议 设 立 相关 的 邮件 规则 来 过 滤 和 归档 。 


在 使 用 Apache Kylin 过 程 中 碰 到 任何 问题 ， 都 可 以 向 相关 的 邮件 列表 发 送 邮 件 ， 特 别提 醒 一 下 ， 提 供 更 多 的 信息 、 日 志 等 
内 容 ， 将 有 助 于 志愿 者 及 时 地 分 析 和 解答 相关 的 问题 。 也 可 以 在 Apache Kylin 的 JIRA 系 统 中 提交 相关 的 Bug 等 信息 。 


最 后 ， 如 果 对 Apache Kylin 的 开发 感 兴趣 ， 可 以 下 载 源 代码 来 进行 进一步 的 研究 ， 特 别 是 在 实际 生产 环境 中 碰 到 的 一 些 问 
题 的 解决 方案 和 想法 等 都 可 以 提交 到 社区 ， 贡 献 更 多 的 场景 以 丰富 和 完善 整个 Apache Kylin 项 目 和 社区 。 


11.7 JE 


本 章 介 绍 了 Apache Kylin 的 开源 历程 和 Apache 基 金 会 的 组 织 架构 和 工作 方式 。 和 希望 通过 这 些 内 容 让 更 多 国人 了 解 到 开源 的 
文化 和 魅力 ， 激 励 更 多 人 投入 到 开源 软件 的 事业 中 来 。 


第 12 章 Apache Kylin 的 未 来 


大 数据 上 的 多 维 分 析 是 非常 活跃 的 领域 。 作 为 目前 处 于 领先 地 位 的 开源 项 目 ，Apache Kylin 在 未 来 有 着 广阔 的 发 展 空 间 和 
无 限 的 可 能 。 


12.1 大 规模 流 式 构建 


实时 或 近 实时 的 数据 分 析 是 一 类 刚性 需求 。 现 有 的 Kylin 流 式 Cube 构 建 在 很 大 程度 上 满足 了 这 类 需求 ， 但 也 存在 着 如 下 的 一 


些 缺 陷 。 
. 架构 上 存在 单 点 故障 缺陷 。 流 式 计 算 在 一 个 单一 节点 上 完成 。 一 旦 出 现 ， 故 障 就 需要 人 工 干预 ， 无 法 自动 修复 。 
. 配置 较为 复杂 ， 负 责 流 式 构建 的 计算 节点 需要 人 工 配制 ， 使 用 不 便 。 
- 吞吐 数据 量 限 制 。 受 到 单一 节点 限制 ， 单 位 时 间 内 能 处 理 的 数据 有 理论 限制 。 


. 可 能 丢失 迟到 的 数据 。 因 为 当前 流 式 构建 是 按时 间 切 分 数据 的 ， 当 数据 源 不 能 保证 记录 榨 时 间 严 格 排序 的 时 候 ， 迟 到 的 数 
据 将 无 法 被 Cube 捕 扣 。 


基于 上 面 的 原因 ， 社 区 正在 积极 研发 第 二 代 流 式 构 建 技术 。 新 的 设计 将 利用 Hadoop/spark 集 群 来 扩展 计算 能 力 ， 解 决 单 点 
失效 隐患 ， 可 以 横向 扩展 提升 吞吐 量 ， 支 持 大 规模 流 式 处 理 。 同 时 使 用 数据 源 偏 移 量 (Offset) 来 记录 数据 的 位 置 ， 确 保 不 遗漏 
任何 记录 。 


更 进一步 ， 可 以 在 Cube 的 基础 上 再 添加 实时 节点 ， 将 最 后 几 分 钟 的 数据 缓存 在 内 存 中 。 将 实时 节点 联合 Cube 的 内 容 就 能 构 
成 实时 查询 的 Lambda 架 构 ， 通 过 一 个 SQL 接口 同时 查询 历史 和 实时 数据 ， 真 正 做 到 秒 级 别 延 迟 的 实时 大 数据 分 析 。 


12.2 ”拥抱 Spark 技 术 栈 


Spark 是 继 MapReduce 之 后 的 新 一 代 分 布 式 计算 架构 。 尽 管 目前 的 成 熟 度 和 普及 度 还 不 如 MapReduce， 但 因为 其 出 色 的 
性 能 和 友好 的 开发 接口 广 受 各 界 欢迎 。 有 人 甚至 将 Spark 誉 为 MapReduce 终 结 者 ， 称 其 最 终 将 取代 MapReduce。 


Apache Kylin 的 可 扩展 架构 可 以 很 好 地 适应 不 同 的 计算 技术 。 核 心 开发 团队 曾 尝 试 基于 Spark 开 发 一 款 新 的 Kylin 构 建 引 
。 尽 管 初步 实验 结果 并 没有 取得 非常 明显 的 速度 提升 ， 但 随 着 Spark 技 术 群 的 持续 升温 ， 对 Spark 新 引擎 的 呼声 将 会 越 来 越 
。 新 的 构建 引擎 可 以 和 老 引 擎 并 存 ， 所 以 并 不 存在 二 选 一 的 问题 。 用 户 可 以 很 安全 地 在 同一 个 Kylin 环 境 里 同时 启用 两 个 引 
， 选 择 一 些 项 目 试用 新 引擎 ， 满 意 之 后 再 慢 慢 切换 。 
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支持 SparkSQL 作 为 Hive 之 外 的 另 一 种 数据 源 是 另 一 种 角度 的 Spark 集 成 。 随 着 越 来 越 多 的 数据 格式 被 连接 到 Spark 平 台 
上 ，SparkSQL 大 有 取代 Hive 成 为 新 一 代 大 数据 仓库 的 态势 。 让 Kylin 从 SparkSQL 获 取 数 据 构 建 Cube 的 需求 也 就 呼之欲出 。 目 前 
社区 已 经 将 SparkSQL 数 据 接 入 作为 中 期 目标 ， 提 上 开发 日 程 。 


12.3 ”更 快 的 存储 和 查询 


更 快 的 查询 和 更 高 效 的 存储 是 永恒 的 主题 。Kylin 作 为 高 速 OLAP 引 警 ， 速 度 永 远 是 最 重要 的 技术 指标 。 


当前 的 存储 引擎 HBase 有 着 比较 明显 的 速度 短 板 (因为 其 要 同时 兼顾 读 写 和 弱 类 型 ) ， 其 他 更 快 的 存储 技术 ， 比 如 Kudu 或 
Parquet， 甚 至 有 人 建议 Cassandra 或 ElasticSearch ， 只 读 性 能 都 成 倍 高 于 HBase。 因 此 在 HBase 之 外 支持 其 他 更 快速 的 存储 引 
欧 也 是 一 个 重要 的 发 展 方向 。 回 报 可 能 是 查询 速度 成 倍 的 提升 。 


12.4 前 端 展现 及 与 BI 工 具 的 整合 


有 了 高 速 OLAP 引 警 之 后 ， 用 户 很 自然 就 会 希望 有 相应 的 前 端 可 视 化 。 目 前 这 里 是 Kylin 的 空白 。 通 过 JDBC/ODBC 接 
口 ，Kylin 可 以 和 不 少 开源 OLAP 前 端 集成 ， 比 如 Saiku、Caravel 和 Zeppelin， 但 使 用 起 来 需要 额外 的 安装 和 配置 ， 不 是 最 为 便 
捷 的 方式 。 


为 多 个 流行 的 开源 展现 及 BI 工具 提供 原生 的 连接 器 ， 无 颖 地 接 入 现 有 系统 已 成 为 用 户 的 迫切 需求 ， 通 过 不 断 提高 各 个 工具 的 
整合 能 力 ，Apache Kylin 将 会 为 分 析 师 提供 更 为 友好 的 用 户 体验 。 


12.5 ”高 级 OLAP 函 数 


Apache Kylin 支 持 标准 SQL， 但 对 于 高 级 OLAP 遂 数 还 缺乏 完整 的 支持 ， 特 别 是 在 一 些 不 太 常用 的 浮 数 如 财物 分 析 类 函数 等 


领域 尚未 完全 实现 。 在 Kylin 被 越 来 越 多 地 试用 到 更 多 应 用 场景 中 的 时 候 ， 这 些 函 数 将 成 为 需要 支持 的 重要 特性 。 在 社区 中 ， 我 
们 提供 了 按 需 开发 的 能 力 ， 在 有 相关 需求 的 时 候 会 进一步 增强 这 方面 的 开发 。 


另外 ，SQL2003 等 更 新 的 标准 中 ， 对 OLAP 函 数 等 也 做 了 相应 的 规范 ， 为 了 能 够 更 好 地 支持 丰富 的 分 析 需 求 ， 这 类 函数 也 将 
被 逐步 实现 。 


12.6 RE 


4X, Apache Kylin 提 供 的 OLAP on Hadoop 技 术 已 经 可 以 解决 超大 规模 数据 集 上 的 亚 秒 级 交互 查询 分 析 需 求 ， 在 未 来 ， 
用 户 将 不 仅仅 希望 能 在 Kylin 上 进行 查询 ， 包 括 对 数据 的 增加 、 删 除 、 修 改 等 也 希望 能 通过 同一 个 平台 来 实现 ， 即 完整 的 数据 仓 
库 能 力 。 对 于 社区 不 断 发 展 的 未 来 ， 我 们 相信 Kylin 完 全 会 朝 着 完整 的 数据 仓库 解决 方案 的 方向 发 展 。 


